Bo Li, et al., “Multi-view Inference for Relation Extraction with Uncertain Knowledge”, AAAI 2021
目录
展开
1 简介
- 姓名:MIUK
- 机构:北大,李博
- 任务:文档级关系抽取
- 流派:引入外部知识,纯粹基于 BERT
- 动机:要引入 uncertain knowledge graph(就是边上都有个概率)的知识,帮助关系抽取
- 方法:使用了 KG 中的 concept 和 entity description 这两种外部知识
- 得到 mention embedding 之后,以 entity description 为 key,做 mention 的 attn aggregation,得到 local entity representation;bilinear 得到 entity pair 的 local interactive vector
- 对于一个 entity,在 KG 里找 topk 个对应的 concept,加权求和(权重是边上概率过 softmax 得到的),得到 entity 对应的 concept representation
- 将 entity 的 concept representation 和 description vector 拼一起,bilinear 得到 entity pair 的 global interactive vector
- entity pair 的 local interactive vector 和 global interactive vector 加权求和,得到最终 entity pair 的表示
- mixed attn:分别以 entity 的 local interactive vector、entity 的 global interactive vector 作为 query,对 sentence 表示做 attn,这两个 attention score 再加上一个“entity 出现在 sentence 中”的分数,作为最终的 attn score,来 attn aggregation 得到 document 表示
- document 表示和 entity pair 表示拼一起, 多标签分类
- 性能:超过了 LSR,但没超过 GAIN
- 优点:没有用图,只是用了一些 attn
- 局限:引入了外部知识
- 短评:又是一篇“让信息充分交互”的文章,这种文章我就不知道是怎么想出来的,过程也太麻烦了
2 实验
- DocRED 上和 LSR 差不多,ignf1 big-margin,作者说是因为 MIUK 和 LSR 都用了外部资源(LSR 标出句法树的最短路,也算外部资源?)
- sentence RE 上 big-margin sota
- ablation:都有用
3 思考
- 本文的 global 和 local,含义与 GLRE 这篇不一样:MIUK 的 global,是指这个信息是跨 document 的,或者说来自外部知识库的,local 指和 document 的 context 相关的;GLRE 的 global 是指一个 document 的,local 是让每个 entity pair 都有一个和上下文相关的表示
- 他引入 concept 这一个层次的信息,和我一开始想的不一样:一开始我还以为 concept 就相当于是 entity type,用 concept 信息就是相当于学出来一套可解释性很强的规则,比如一个 relation 对应的头尾实体分别都有可能是哪些 entity type 这样。(感觉这部分信息本文的 BERT anchor 是可以学到的?)本文的 concept 似乎只是拼到 entity 后面,加强一下罢了。
- 本文还用了一个小 trick,忘记说了。他在用 BERT 的时候,用 anchor 把 mention 包围了起来:
anchor 对应 doc 里面不同的 entity。文中说这样可以让模型更关注 entity。和 danqi 那篇感觉差不多。另外,这样是不是得重新预训练?预训练的数据哪里来?
- 他在 3.2 的 information aggregation 里面的 g,不知道是哪里来的
首先感谢对我们工作的关注,针对你思考部分的几个的问题回答一下:
2. 实验中我们发现不需要专门约束实体类型,实体类型之间的约束模型已经学习的非常好了,几乎没有预测为某个关系时,实体类型不合逻辑的情况;MIUK中concept的利用确实较为简单,后面会探索新的利用方法;ProBase_Desp也马上会公开有助于后面的研究工作;
3. 不需要重新预训练BERT,entity anchor只需要用BERT词表中的稀有词表示即可,我们会在final版本中说明,感谢提醒。
4. g在公式7下面说的很清楚了,是一个gating vector,会在模型训练过程中学习更新。
最后谢谢支持~
感谢您的回复,是很赞的工作呀!
另外名字写错了,是博。。有空更正一下。。
抱歉抱歉,已经改正