论文笔记 – Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction

Benfeng Xu, et al., “Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction”, AAAI 2021

1 简介

  • 姓名:SSAN
  • 机构:中科大,百度
  • 任务:DocRE (模型可以迁移到其它 task
  • 流派:基于 BERT
  • 动机:前人的方法里,文本结构信息和 conextual 信息都是在不同的 module 使用的;作者觉得,应该一起
  • 方法:修改了 BERT 里面的 attn 结构,在计算 attn score 时加了一项
    • 对 doc 里面每个 token,两两找关系 $\in$ {intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA},构建“邻接矩阵” $S$
    • $e = qk/\sqrt{d} \rightarrow e = (qk + \text{bias})/\sqrt{d}$,bias 有两种,都是把 $S$ 离散的值变成网络参数;每层 transformer 不共享参数
      • biaffine:$\text{bias} = qA_sk + b$
      • decomposed linear: $\text{bias} = qK_s + Q_sk + b$
  • 性能:SOTA @ DocRED(59.19),RoBERTa Large + 预训练 65.69!
  • 短评:简单优雅
  • 实验:
    • bilinear 比 decomposed linear 好
    • decomposed linear 里面,$Q_sk$ 比 $qK_s$ 更有用,作者说 “which implies that the key vectors might be associated with more entity structure information”,我觉得只是因为,Q 是 softmax 归一化的方向,在这个方向上加一个 s 的参数才是更合理?我也不太清楚
    • 多层 transformer 里面,只有后几层才对不同的 s 有强烈的倾向(coref 很正,relate 很负),作者说前几层 “self-attention score will be mainly decided by unstructured semantic contexts”,后几层 “self-attention score will be greatly regulated by the struc- tural priors”,感觉可能就像 CNN 对图像提取特征一样,高层的才是更接近词的特征?

2 思考

  1. 建的邻接矩阵,mention 内的 token 设为 intra+coref,这合理吗?(在目前六类肯定是最好的了,不过有没有必要再来一类“intra mention”呢?
  2. 突然想到,对于这种两个输入一个输出的函数,是不是可以对比一下 concat / bilinear / decomposed linear / fully connect 这些函数?
  3. 这篇文章的操作,相当于是在 attention 的时候,更关注 coref 的 token。这个思路是非常不错的,那能不能修改一下方式呢?比如 graph attn(之前好像看到有人这样做过 DocRE),比如 attention gate(COLING 20 那篇),或者直接就把 $S$ 里面的几类简单地搞成几个参数,按位相乘到 attn score matrix 上面?感觉可以实现的方式有很多。

发表评论

邮箱地址不会被公开。