Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability

  • 来源:arXiv:2104.06751v1
  • 机构:清华刘知远 + 阿里
  • 任务:多跳推理的可解释性
  • 多跳推理有基于 rule 和 GCN / 强化学习的方法,之前人们做多跳推理只会评测“头尾实体之间是否有这种关系”的 prf(也就是 link prediction 任务),但是,既然都多跳推理了,那么得到的路径的可解释性也是重要的。有的路径是不 make sense 的!比如这张图里,上面就是合理的,下面就不合理
  • 于是作者在 FB15K-237 上标注了推理路径(分别是手动标注和 rule-mining systems),设计了几个指标,用来表示多跳推理的可解释性
  • 三个指标分别如下:
    • Path Recall: 测试集里面,被预测出至少一条路的三元组的占比
    • Local Interpretability: 每个三元组找到的最好的推理路径,可解释性的分数的和($S(p)$ 0-不好 0.5-一般 1-好)
    • Global Interpretability: LI can only express the reasonable degree of the path found by the model, but it fails to consider how many paths can be found. GI = PR · LI
  • 标注:
    • 路径太多了,不标路径,只标路径对应的关系传递规则
    • 长度最多三跳
    • 为了得到 rule 的分数,就随机找十个这条 rule 对应的 path,标 0/0.5/1;最后一个 rule 的可解释性分数 $S(f)$ 是这十个推理路径的可解释性分数 $S(p)$ 的平均
    • 以上是手动标,用 rule mining system 标的话,这个系统自动就会有一个分数,作者通过设置两个阈值,将这些分数还是转换成 0/0.5/1(通过让 micro f1 最大)。从后面实验得到,rule mining system 标的还是不太靠谱
  • 实验
    • 基于规则的方法可解释性还是很厉害的,现在的模型比不上规则

发表评论