Robin Jia, et al., “Document-Level N-ary Relation Extraction with Multiscale Representation Learning”, NAACL 2019
目录
展开
1 简介
- 姓名:MultiScale
- 机构:Stanford & MSR
- 任务:Doc N-ary RE
- 流派:sub-relation
- 动机:多尺度(mention-entity,paragraph-document)表示
- 方法:常见的 DocRED 上的算法,都是源于此,只不过本文是 pair 表示的多尺度
- Doc N-ary 任务:n 个 entity 组成的 tuple 表示一个关系(传统的就是 2 个 entity)(在这个数据集上,其实就是 基因-药物-突变 三者的关系,还就只是“有没有关系”)。有两个流派,sub-relation 是先把 n 个 entity 中两两的关系找出来,再通过这 $(_n^2)$ 个关系得到 n-ary 的关系;另一个流派是先找 n-ary 中最关键的 entity,抽出来之后用 slot filling 做。本文是前者。
- 由于文档非常长,因此要分 unit,先把每一 unit 过 Bi-LSTM,得到 mention pair 的表示,这里的表示是 unit-isolated
- 再将文章中所有 unit 的 mention pair 表示合并成 entity pair 表示
- 整体流程就如下图所示,(看过那些 DocRED 之后,)比较简单
- mention -> entity 使用的是 log-sum-exp pooling $x = \log\sum\exp(x_i)$,max pooling 的光滑版本
- 构建了一个 ensemble prediction 的辅助任务,在每个 unit 都用 mention -> entity 之后,再把不同 unit 的结果用 noisy-or 合并,一个 rel 的概率:$p = 1-\prod(1-p_i)$。这样做可以解决 sub-relation 跨 unit 的问题
- 性能:SOTA @ PubMed
- 短评:是 DocRED 开山做了吧

2 思考
- 关于 log-sum-exp pooling,作者说这是因为 mention tuple 可能比较“模糊”,我理解就是可能每个 mention pair 都只包含一部分的 relation 信息,可能不全(文中称之:weak signal),所以都还是保留着吧?反正效果上看,应该是有用的
- 搜了一下 log-sum-exp pooling,发现原版是有系数的:$x = \frac{1}{r}\log\sum\exp(r * x_ij)$,$r\rightarrow 0$ 时,lse pooling 是 avg pooling,$r\rightarrow\infty$ 时,lse pooling 是 max pooling。所以,是不是可以调参,让性能更好?
- 关于 noisy-or,感觉就是“用所有别人表示自己”(?)不知道这种会在数学上是一种什么映射,感觉也是挺有意思的东西,值得深入研究一下(期末调分的时候是不是可以用这个算法 XD)
- 文中说“Past methods using distant super- vision often need to up-weight positive examples, due to the large proportion of negative candidates. Interestingly, we found that our document model was robust to this imbalance, as re-weighting had little effect and we didn’t use it in our final results.” 感觉很神奇,搞不懂是为啥。
- 另外,这个算法还写了很多 基因-突变 的限制,在反向传播的时候加进去(?不懂)
- 这个任务太像我们的电力任务了,下周讲讲,又能偷懒了嘿嘿
- 这个数据集感觉很。。。:For over 20% of the relations, we can’t find all three entities in the document. In many cases, the missing entities are in figures or supplements, beyond the scope of our extraction. 这。。