论文笔记 – Document-Level N-ary Relation Extraction with Multiscale Representation Learning

Robin Jia, et al., “Document-Level N-ary Relation Extraction with Multiscale Representation Learning”, NAACL 2019

1 简介

  • 姓名:MultiScale
  • 机构:Stanford & MSR
  • 任务:Doc N-ary RE
  • 流派:sub-relation
  • 动机:多尺度(mention-entity,paragraph-document)表示
  • 方法:常见的 DocRED 上的算法,都是源于此,只不过本文是 pair 表示的多尺度
    • Doc N-ary 任务:n 个 entity 组成的 tuple 表示一个关系(传统的就是 2 个 entity)(在这个数据集上,其实就是 基因-药物-突变 三者的关系,还就只是“有没有关系”)。有两个流派,sub-relation 是先把 n 个 entity 中两两的关系找出来,再通过这 $(_n^2)$ 个关系得到 n-ary 的关系;另一个流派是先找 n-ary 中最关键的 entity,抽出来之后用 slot filling 做。本文是前者。
    • 由于文档非常长,因此要分 unit,先把每一 unit 过 Bi-LSTM,得到 mention pair 的表示,这里的表示是 unit-isolated
    • 再将文章中所有 unit 的 mention pair 表示合并成 entity pair 表示
    • 整体流程就如下图所示,(看过那些 DocRED 之后,)比较简单
    • mention -> entity 使用的是 log-sum-exp pooling $x = \log\sum\exp(x_i)$,max pooling 的光滑版本
    • 构建了一个 ensemble prediction 的辅助任务,在每个 unit 都用 mention -> entity 之后,再把不同 unit 的结果用 noisy-or 合并,一个 rel 的概率:$p = 1-\prod(1-p_i)$。这样做可以解决 sub-relation 跨 unit 的问题
  • 性能:SOTA @ PubMed
  • 短评:是 DocRED 开山做了吧

2 思考

  1. 关于 log-sum-exp pooling,作者说这是因为 mention tuple 可能比较“模糊”,我理解就是可能每个 mention pair 都只包含一部分的 relation 信息,可能不全(文中称之:weak signal),所以都还是保留着吧?反正效果上看,应该是有用的
  2. 搜了一下 log-sum-exp pooling,发现原版是有系数的:$x = \frac{1}{r}\log\sum\exp(r * x_ij)$,$r\rightarrow 0$ 时,lse pooling 是 avg pooling,$r\rightarrow\infty$ 时,lse pooling 是 max pooling。所以,是不是可以调参,让性能更好?
  3. 关于 noisy-or,感觉就是“用所有别人表示自己”(?)不知道这种会在数学上是一种什么映射,感觉也是挺有意思的东西,值得深入研究一下(期末调分的时候是不是可以用这个算法 XD)
  4. 文中说“Past methods using distant super- vision often need to up-weight positive examples, due to the large proportion of negative candidates. Interestingly, we found that our document model was robust to this imbalance, as re-weighting had little effect and we didn’t use it in our final results.” 感觉很神奇,搞不懂是为啥。
  5. 另外,这个算法还写了很多 基因-突变 的限制,在反向传播的时候加进去(?不懂)
  6. 这个任务太像我们的电力任务了,下周讲讲,又能偷懒了嘿嘿
  7. 这个数据集感觉很。。。:For over 20% of the relations, we can’t find all three entities in the document. In many cases, the missing entities are in figures or supplements, beyond the scope of our extraction. 这。。

发表评论