Coreference Reasoning in Machine Reading Comprehension

  • 来源:ACL 2021
  • 机构:Dan Roth
  • 任务:MRC conference reasoning
  • 动机:MRC conference reasoning 不好评测,设计了新的 evaluation set;训练 MRC 时整合现有 coreference 数据集的新训练方法
  • CorefQA 数据集成绩都太好了,不能表明模型对 coref 的理解好。作者做了这么几个模型作为对照组:
    • 因为答案大部分是人名,所以随机选择人名作为答案
    • 将问句中的特殊疑问词去掉,在这个数据集上训练
    • 不给问题,只用 context 训练
    • 找跟问题语义相似度最接近的作为答案
    • 在 doc 里挑一句跟问题语义相似度最高的,在这个句子里找答案
    • 结果发现,这五个都是 bias / artifact,后几个影响还非常大(类似 MRC shortcut)。最后一行还说明,CorefQA 这个数据集建的不行
  • 构建一个好的 coref MRC 数据集的原则
    • CorefQA 在建立的时候用了 adversial model 来筛选简单的(用 lexical 就能回答的)问题,但是 adversial model 是在 SQuAD 上训练的,domain shif 不可避免
    • 作者就提出了几个简单的原则:
      • 指代和被指代,应该是更有信息的作为被指代的;这俩应该在不同的句子里
      • passage 应该有很多实体和代词
    • 于是就按照这个,新标了 200 个 QA pair,在这个 val set 上,artifacts 好了一些:
  • 新模型:
    • coref MRC 数据集只有问答,没有 coref 的标注,怎么办呢?用 Coref 数据集来辅助训练
    • 训练分成两种方法,一种是 joint 成一个 dataset,另一种是先后的 transfer setting
    • 实验:在不同的 MRC 数据集上,引入 coref 效果有点奇怪,有的变好了有的变差了(但是总能找到一个变好的)。一般来说 transfer 好于 joint,SQuQD 好于 CoNLL

发表评论