EIDER: Evidence-enhanced Document-level Relation Extraction

  • 来源:arXiv:2106.08657v1
  • 机构:UIUC 韩家炜
  • 任务:DocRE
  • 动机:引入抽取 support evidence 作为辅助任务,同时用抽出的 evidence 作为 pseudo doc,重新抽取(如果 evidence 抽的都对,那么只用 pseudo doc 就足够了),融合得到结果。
  • 方法:
    • 关系预测:
      • mention 周围用 * 包裹,用 mention 前面的 * 作为 mention embedding,用 log-sum-exp 得到 entity 表示。
      • 句子的表示用里面词加权求和得到,权重是头尾实体分别对每个词的 attention score 的相乘(文中式子 3 感觉应该是按位相乘?没太看明白)
      • tanh 得到 context-aware entity representation,bilinear 关系预测
      • loss 用的是 ATLOP 的 loss
    • evidence 预测:
      • 句子表示还是用的上面的句子表示,BCE loss
    • pseudo re:
      • 用抽出来的 evidence 拼成 document,在上面重新预测得到 logits
      • 两种 RE 的 logits 通过 blending layer 整合,就是两个 logit 相加,再减一个参数 $\tau$
      • 训练的时候,只用全文档的关系预测 + evidence 预测的 loss 优化;只在预测结果的时候才加入 pseudo doc 上的预测 logits。不过这个 $\tau$ 需要调,因此用交叉熵作为 loss,用融合的预测结果,在验证集调 $\tau$。我不太清楚这里怎么实现的,冻结其他所有参数吗?
  • 实验:
    • 用的 cased BERT
    • inter 提升更大,说明提取 evidence 的辅助任务有用,后面生成 pseudo doc 有用(ablation 也说明了这点)
    • 没有图,没有 reasoning,还是比你强
    • 从关系里找出三类:intra,coref(标注指代词,有共现),bridge(需要一个其它实体作为跳转),发现在这三类关系上,evidence 的辅助任务对 1 没啥用,对 2 负作用,对 3 有很好的正面作用!这就从正反两面说明有 reasoning 的作用!这真是非常好的实验!

1人评论了“EIDER: Evidence-enhanced Document-level Relation Extraction”

  1. Veronicium

    “句子的表示用里面词加权求和得到,权重是头尾实体分别对每个词的 attention score 的相乘(文中式子 3 感觉应该是按位相乘?没太看明白)”
    的确是按位相乘。式子3里的 A^E_{h,k}, A^E_{t,k} 都是长度为 document_length 的向量,指的是在第 k 个 attention head 里文章中的每个token 和 head/tail 之间的 attention。这也是ATLOP里的做法。

    “不过这个 需要调,因此用交叉熵作为 loss,用融合的预测结果,在验证集调 。我不太清楚这里怎么实现的,冻结其他所有参数吗?”
    是的,这里可以看成一个独立的单层神经网络。输入是两种 inputs 的 logits,唯一的 learnable parameter 是 τ。

发表评论

您的电子邮箱地址不会被公开。