End-to-end Neural Coreference Resolution

  • 来源:ACL 2017
  • 机构:FAIR
  • 任务:Coref
  • 动机:第一个 end-to-end 的 coref
  • 任务定义:给句子里所有的 span 找 antecedent。可能的 antecedent 就是这个span 前面的所有 span,以及一个 dummy antecedent(代表当前 span 不是 entity 或者没有指代)
  • 方法:现在看来非常简单
    • Bi-LSTM 得到 token 表示之后,attention aggregate 成 span 表示(还拼接了起始位置和长度信息)。
    • 对于一个实体对,计算 s_m 是 span 是 entity 的分数,s_a 是 ij 有 coref 关系的分数
    • 最后就是三个分数相加得到 ij coref 的分数
    • 对于 span,只取长度小于 T 的 span,且最后得到结果可能有重叠矛盾啥的,也会处理一下
    • 训练的时候只有同一个 coref 的聚类,并没有谁是 antecedent 的,因此就直接,log-sum coref 里所有实体的 logits 作为 这个实体对这个“antecedent”的 logits
  • 实验:
    • SOTA @ CoNLL-2012
    • ensemble 5 个不同初始化的模型,还能提升一点?
    • ablation 还是没啥意思,都有用呗
    • 如果给 gold 的 mention,让模型只做 coref,整体能提升 17.5 pt!
    • spans per word 越大,recall 越高,但是预测出来的结果也就越少了
    • 长的 span precision 很低

发表评论