Dai Dai, et al., “Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling”, AAAI 2019
1 简介
用新的标注方式 + 序列标注 + position attn 做实体关系三元组抽取。之前有人用的标注格式,① table filling 的方式只用了一半的 table,两个实体之间的对称关系(我是你爸爸,你是我儿子)就只能提一个 ② ACL 17 那篇,不能识别句子里的关系重叠问题(一个 entity 只能作为一个三元组的头或尾)③ ACL 18 这篇,对多个词构成的实体又束手无策…
2 方法
2.1 novel tagging scheme

对于长度为 n 的句子,里面每一个词,都标一个序列(图中的一行)。其中浅色的是自己,就标实体类型,其他的地方,如果是和当前词有关系,且当前词是三元组的头实体,就在那个词的位置上标注关系类别。这样的方法可以解决关系重叠、对称关系的问题,而且又是 BIOES,所以也解决了多个词的实体问题。
2.2 带有 position attn 的序列标注
上面说到,本方法通过这种标注方式,把问题转化成了 n 个序列标注的问题。对于第 p 个词(就是标注里面的第 p 行),序列标注的模型如下:

对于序列里的第 t 个 token,经过 Bi-LSTM 得到 hidden embedding $h_t$,然后再拼上 attn 算出来的 $c_t$,就是最终的 embedding,送入 CRF 解码即可。其中 $c_t$ 就是通过 position attn 得到的。position attn 如图所示(好,我终于也有一天懒得打公式了)

就是把 j, p, t 三个词的 embedding 分别过 linear(其实结果是存好的),算出一个“在 p 行情况下,t 这个词对别的词 j 的 attn score”,然后就是 softmax,再按这个得到的权重对整个句子的 embedding 求和,就得到“attention-pooling vector”。
这个 $c_t$ 有啥用呢?作者说 position-attention mechanism to produce different position- aware sentence representations for every query position p。我大概能懂这个意思。
但是作者又说,$h_t$ is used for matching the sentence representations against itself (self-matching) to collect information from the context. 这个我就不懂了,回来得读一下 【#TODO1】。
3 实验结果
- NYT + Wiki-KBP 数据集:sota
- 模型能捕捉更长距离的关系:长距离关系上表现下降的不多
- 对于重叠关系,作者特意改了一下数据集里不完善的地方,性能有一个 big margin
- the character- level representations are helpful to capture the morphological information and deal with OOV words in sequence labeling task,不懂 【#TODO2】
- 复杂度平方了,很慢。不过可以优化:① 先把 lstm embedding 都算好,存起来 ② 有的词不可能是头实体,剪枝
4 思考
- 这种标注方式相当于把实体和关系的所有类别标签都混在一起。一方面,类别更多,分类肯定更难;另一方面,这实体的标签和关系的标签真的是同一个维度里的东西吗?就好比,原来有两个任务,一个是分颜色,另一个是分形状,分别训练模型,就只需要学习颜色或形状特征就好了。但是如果像这篇文章一样,模型就要同时学习颜色和形状特征,这两类特征它不是一个维度的哇?肯定会难度平方。另外,即使标签混在一起了,那先分类实体 or 关系,然后再各自分类,这样是不是会简单呢?唉,不过他用了序列标注,感觉是故意把关系标签也当成实体标签做的。
- 三元组抽取,最后不需要实体的类型,这里他还是要让模型做预测实体类型的任务。我感觉,首先,肯定不是由于他标注框架无法改变——直接把所有实体的标签改成 BIS-entity 就可以了。我感觉还是出于,“实体类型对关系抽取很重要”?
5 TODO
- Wang, W.; Yang, N.; Wei, F.; Chang, B.; and Zhou, M. 2017. Gated self-matching networks for reading comprehension and question answering. In Proceedings of the 55th Annual Meeting of ACL, volume 1, 189–198.
- Ma, X., and Hovy, E. 2016. End-to-end sequence la- beling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354.