Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion

  • 来源:ACL’21
  • 机构:南洋理工 + 清华李娟子
  • 任务:KGC,新数据集
  • 动机:原来的 KGC 数据集三大缺点:
    • 测试集要补全的 triplet 的是能推断出来的,而不是要用常识或无意义的;
    • 测试集的 triplet 可能是不能补全的,应该应该分类成 unknown;同时现在的负例构造的也不对,现在认为图谱里没出现的都是错的,构造负例就直接用图谱里的 triplet 换掉一个实体来构造,这也不一定呀;
    • 现有的满足第一条的 KGC 太小,而且推理模式都是 domain 相关的(比如亲密关系和国家这两个数据集)。
  • 数据集
    • 从 wikidata 里提取一大一小两个 triplet 集合,大的用来 mine rules,小的作为数据集;两个数据集不同,避免 rule 完全一样。mine rule 有现成的工具,生成数据集有四步
      • rule 前件的 triplet 组成训练集,后件的 triplet 集合组成测试集
      • 节点固定了,新增边:更多的、更长的推理路径
      • 构建负例:还是 triplet 换头尾实体,只不过要用 rule mining 系统打分?没看明白
      • 手动去掉出现太多的 triplets according to the path lengths, relation types and patterns
    • 标注测试集:在 wikidata 的就是 positive,剩下的手动标注成 negative 或 unknown

发表评论