Angrosh Mandya, et al., “Graph Convolution over Multiple Dependency Sub-graphs for Relation Extraction”, COLING 2020
目录
展开
1 简介
- 姓名:C-GCM-MG
- 任务:句子级 / 跨句子 关系抽取
- 流派:-
- 动机:Contextualised GCN 用一张图表示句子,给词做 aggregation 得到 relation 的表示,这样在图的规模变大(句子变长?)时,性能会掉;作者用多张图表示一个句子 / 文档,可以解决这个问题,entity pair 距离远时,性能提升很大
- 方法:BERT + Bi-LSTM + multi-graph GCN + attn-agg + softmax 分类
- 性能:cross-sentence sota,sentence RE comparable
- 短评:给了我多级别构图的灵感
2 方法
方法比较简单,就简单说一下:
- 一直到 GCN 之前,都是很正常的,得到每个词的 embedding;后面的 GCN 和 attn,都是为了把 word embedding 加权成 entity pair 的 embedding
- BERT 输出采用后四层 transformer 的输出平均得到(这也能有操作空间?)
- 构图:
- 句子级 RE:三个图 ① 两个 entity 在句法树上的最短路径 ②③ entity 以及句法树上相连的词
- cross-sentence n-ary RE:① 定义跨句子的两个 entity 的最短路为经过两个句子 root 中介的路,两边都是 entity 到 root 的路径,找到一个最小的,包含所有 entity 之间最短路的图;再对所有 entity 全连接 ②③ 同上
- GCN:一层 GCN,其中还引入了边类型的频率,作为一个 weight
- attn:就是对每张图里面的所有节点做 attn aggregation,然后再加上 Bi-LSTM 得到的 entity 表示。
3 思考
- 这篇文章的构图,和 reasoning 完全没关系,就是起到一个 attention 的作用,索然无味。。。
- 原文 4.2.4 部分,式子 (5) 上面那里,GCN 里面的邻接矩阵和度矩阵的操作,真的就是作者说的意思吗?我严重怀疑。。。
- attn aggregation 那里,句子的可以这样做,跨句子的也能这样做吗?就是图 ① 得到的表示,包含了所有实体呀?这东西在分类时真的有用吗?