跳至内容
- 来源:ACL 2017
- 机构:FAIR
- 任务:Coref
- 动机:第一个 end-to-end 的 coref
- 任务定义:给句子里所有的 span 找 antecedent。可能的 antecedent 就是这个span 前面的所有 span,以及一个 dummy antecedent(代表当前 span 不是 entity 或者没有指代)
- 方法:现在看来非常简单
- Bi-LSTM 得到 token 表示之后,attention aggregate 成 span 表示(还拼接了起始位置和长度信息)。
- 对于一个实体对,计算 s_m 是 span 是 entity 的分数,s_a 是 ij 有 coref 关系的分数

- 最后就是三个分数相加得到 ij coref 的分数

- 对于 span,只取长度小于 T 的 span,且最后得到结果可能有重叠矛盾啥的,也会处理一下
- 训练的时候只有同一个 coref 的聚类,并没有谁是 antecedent 的,因此就直接,log-sum coref 里所有实体的 logits 作为 这个实体对这个“antecedent”的 logits
- 实验:
- SOTA @ CoNLL-2012
- ensemble 5 个不同初始化的模型,还能提升一点?
- ablation 还是没啥意思,都有用呗
- 如果给 gold 的 mention,让模型只做 coref,整体能提升 17.5 pt!
- spans per word 越大,recall 越高,但是预测出来的结果也就越少了
- 长的 span precision 很低