HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications

  • 来源:ACL21
  • 机构:复旦
  • 任务:中文 docre 数据集
  • 动机:现在的 re 数据集都太简单了,WebNLG 里都直接出现了 relation 的词,但实际上应该至少 40% 是不出现 relation 词 的 hard case。这篇文章就是挑出质量高的 hard case 作为数据集,并提出了新的标注流程(case-oriented construction framework & three-stage annotation method)
  • 数据集概括:
    • 65,225 relational facts and 9,231 documents
    • 26 predefined relations and 9 types of entities
  • 啥是 hard case:句子长、argument 距离远、需要推理、头尾实体都是同种类型的、相似的关系、长尾分布、一句话有多个 triple、overlap triple
    • 感觉这九个指标都可以作为 motivation
  • 数据标注流程:
  • 这个数据集为啥“好”:
    • NYT WebNLG 中 90% 的 triple 都有重复的(重复指知识库中的一个 fact 在数据集里被标注了多个 triple),HacRED 只有 2.7%
    • 长文分布没那么明显,top20% 关系占了一半
    • WebNLG 中 county_seat 这个关系的 triple 中,72.73% 都含有 Texas 这个实体,那就让模型记住 Texas-> county_seat 了。HacRED 里一个关系最 frequent 的实体也只有 4.2%
    • If the highest-frequency mention is involved in more than 10% triples of the given relation, we regard it as a biased relation. HacRED 没有 biased relation,而 WebNLG 中 biased relation 占了 95%
    • 质量好,标注一致性强
  • 实验
    • 在 HacRED 里面掺杂 DuIE 的简单样本,随着简单的比例越大,模型性能也显著上升
    • 做 joint re 时,pure 和那些 joint 的方法相比,结果很奇怪:竟然是 NER 比别人差很多,RE 强很多?这是为啥啊?而且不同方法的 precition recall 也没有类似的比例?
    • 另外在上图中,DocRE 的方法在关系分类上,似乎也完全没有把非 doc 的方法拉开差距
    • 人在 end2end f1=87, 关系分类 f1=95
    • image-20211006115509460对于句子里 triple 数量分类,前俩方法是越多越差,后俩方法是在平均值附近比较好,多了少了都不好。这又是为啥啊?似乎也没法专门对这个现象设计 loss 啥的

发表评论