论文笔记 – Graph Convolution over Multiple Dependency Sub-graphs for Relation Extraction

Angrosh Mandya, et al., “Graph Convolution over Multiple Dependency Sub-graphs for Relation Extraction”, COLING 2020

1 简介

  • 姓名:C-GCM-MG
  • 任务:句子级 / 跨句子 关系抽取
  • 流派:-
  • 动机:Contextualised GCN 用一张图表示句子,给词做 aggregation 得到 relation 的表示,这样在图的规模变大(句子变长?)时,性能会掉;作者用多张图表示一个句子 / 文档,可以解决这个问题,entity pair 距离远时,性能提升很大
  • 方法:BERT + Bi-LSTM + multi-graph GCN + attn-agg + softmax 分类
  • 性能:cross-sentence sota,sentence RE comparable
  • 短评:给了我多级别构图的灵感

2 方法

方法比较简单,就简单说一下:

  • 一直到 GCN 之前,都是很正常的,得到每个词的 embedding;后面的 GCN 和 attn,都是为了把 word embedding 加权成 entity pair 的 embedding
  • BERT 输出采用后四层 transformer 的输出平均得到(这也能有操作空间?)
  • 构图:
    • 句子级 RE:三个图 ① 两个 entity 在句法树上的最短路径 ②③ entity 以及句法树上相连的词
    • cross-sentence n-ary RE:① 定义跨句子的两个 entity 的最短路为经过两个句子 root 中介的路,两边都是 entity 到 root 的路径,找到一个最小的,包含所有 entity 之间最短路的图;再对所有 entity 全连接 ②③ 同上
  • GCN:一层 GCN,其中还引入了边类型的频率,作为一个 weight
  • attn:就是对每张图里面的所有节点做 attn aggregation,然后再加上 Bi-LSTM 得到的 entity 表示。

3 思考

  1. 这篇文章的构图,和 reasoning 完全没关系,就是起到一个 attention 的作用,索然无味。。。
  2. 原文 4.2.4 部分,式子 (5) 上面那里,GCN 里面的邻接矩阵和度矩阵的操作,真的就是作者说的意思吗?我严重怀疑。。。
  3. attn aggregation 那里,句子的可以这样做,跨句子的也能这样做吗?就是图 ① 得到的表示,包含了所有实体呀?这东西在分类时真的有用吗?

发表评论