- 来源:arXiv:2106.08657v1
- 机构:UIUC 韩家炜
- 任务:DocRE
- 动机:引入抽取 support evidence 作为辅助任务,同时用抽出的 evidence 作为 pseudo doc,重新抽取(如果 evidence 抽的都对,那么只用 pseudo doc 就足够了),融合得到结果。
- 方法:
- 关系预测:
- mention 周围用 * 包裹,用 mention 前面的 * 作为 mention embedding,用 log-sum-exp 得到 entity 表示。
- 句子的表示用里面词加权求和得到,权重是头尾实体分别对每个词的 attention score 的相乘(文中式子 3 感觉应该是按位相乘?没太看明白)
- tanh 得到 context-aware entity representation,bilinear 关系预测
- loss 用的是 ATLOP 的 loss
- evidence 预测:
- 句子表示还是用的上面的句子表示,BCE loss
- pseudo re:
- 用抽出来的 evidence 拼成 document,在上面重新预测得到 logits
- 两种 RE 的 logits 通过 blending layer 整合,就是两个 logit 相加,再减一个参数 $\tau$
- 训练的时候,只用全文档的关系预测 + evidence 预测的 loss 优化;只在预测结果的时候才加入 pseudo doc 上的预测 logits。不过这个 $\tau$ 需要调,因此用交叉熵作为 loss,用融合的预测结果,在验证集调 $\tau$。我不太清楚这里怎么实现的,冻结其他所有参数吗?
- 关系预测:
- 实验:
- 用的 cased BERT
- inter 提升更大,说明提取 evidence 的辅助任务有用,后面生成 pseudo doc 有用(ablation 也说明了这点)
- 没有图,没有 reasoning,还是比你强
- 从关系里找出三类:intra,coref(标注指代词,有共现),bridge(需要一个其它实体作为跳转),发现在这三类关系上,evidence 的辅助任务对 1 没啥用,对 2 负作用,对 3 有很好的正面作用!这就从正反两面说明有 reasoning 的作用!这真是非常好的实验!
1人评论了“EIDER: Evidence-enhanced Document-level Relation Extraction”
发表评论
要发表评论,您必须先登录。
“句子的表示用里面词加权求和得到,权重是头尾实体分别对每个词的 attention score 的相乘(文中式子 3 感觉应该是按位相乘?没太看明白)”
的确是按位相乘。式子3里的 A^E_{h,k}, A^E_{t,k} 都是长度为 document_length 的向量,指的是在第 k 个 attention head 里文章中的每个token 和 head/tail 之间的 attention。这也是ATLOP里的做法。
“不过这个 需要调,因此用交叉熵作为 loss,用融合的预测结果,在验证集调 。我不太清楚这里怎么实现的,冻结其他所有参数吗?”
是的,这里可以看成一个独立的单层神经网络。输入是两种 inputs 的 logits,唯一的 learnable parameter 是 τ。