跳至内容
- 来源:ACL 2021
- 机构:Dan Roth
- 任务:MRC conference reasoning
- 动机:MRC conference reasoning 不好评测,设计了新的 evaluation set;训练 MRC 时整合现有 coreference 数据集的新训练方法
- CorefQA 数据集成绩都太好了,不能表明模型对 coref 的理解好。作者做了这么几个模型作为对照组:
- 因为答案大部分是人名,所以随机选择人名作为答案
- 将问句中的特殊疑问词去掉,在这个数据集上训练
- 不给问题,只用 context 训练
- 找跟问题语义相似度最接近的作为答案
- 在 doc 里挑一句跟问题语义相似度最高的,在这个句子里找答案

- 结果发现,这五个都是 bias / artifact,后几个影响还非常大(类似 MRC shortcut)。最后一行还说明,CorefQA 这个数据集建的不行
- 构建一个好的 coref MRC 数据集的原则
- CorefQA 在建立的时候用了 adversial model 来筛选简单的(用 lexical 就能回答的)问题,但是 adversial model 是在 SQuAD 上训练的,domain shif 不可避免
- 作者就提出了几个简单的原则:
- 指代和被指代,应该是更有信息的作为被指代的;这俩应该在不同的句子里
- passage 应该有很多实体和代词
- 于是就按照这个,新标了 200 个 QA pair,在这个 val set 上,artifacts 好了一些:
![]()
- 新模型:
- coref MRC 数据集只有问答,没有 coref 的标注,怎么办呢?用 Coref 数据集来辅助训练
- 训练分成两种方法,一种是 joint 成一个 dataset,另一种是先后的 transfer setting
- 实验:在不同的 MRC 数据集上,引入 coref 效果有点奇怪,有的变好了有的变差了(但是总能找到一个变好的)。一般来说 transfer 好于 joint,SQuQD 好于 CoNLL
