跳至内容
- 来源:ACL 2020
- 机构:李纪为
- 任务:coref
- 动机:原先的找 antecedent 的方法有缺点 ① 任务设计上,错过的 mention 就错过了 ② 算法上,pair 的打分只依靠 pair contextulized 表示,因此缺少 mention 之间的联系。提出的 QA 方法可以解决上面两点,同时还能利用别的 QA 数据集预训练,再增强性能
- 方法:

- mention proposal 还是用 SpanBERT 给 span 打分,抽 mention span
- linking 还是计算 s(i,j) 这个分数,只不过任务换成抽取式 MRC。question 就使用 mention 所在的那句话,换个疑问词。输入 question 和 passage,输出 bio 标注,标出 coref 的其它 mention。每一条问句就能得出 s(i->j) 的分数,反过来在的到 s(j->i) 的分数,相加就是 s(i,j),然后的框架就都和 17-end-to-end 一致了
- 为了避免四次复杂度,做了一些简化:输入文档采用滑动窗口的切分、只取长度 <xx 的 span、预测出的实体最多留 lambda * 句子长度个、对于每个 query 只取最多 C 个答案
- 实验: