Revisiting the Negative Data of Distantly Supervised Relation Extraction
2021-06-05 2021-06-05
来源:arXiv:2105.10158v1
机构:复旦
任务:joint RE
动机:远程监督出来的数据集里,太多都是有关系但没标的 FN 了 there exist at least 33% and 35% FN’s in NYT and SKE datasets, respectively
方法:做 Joint 有三类方法,分别是先抽实体再抽关系(s,o then r 现在没人用了)、先抽头实体再抽关系下的尾实体(s then r,o casrel 等就是这样的),以及本文提出的,先抽关系再抽实体(r then s,o)。这个看起来挺不靠谱的,因为直接用句子做关系的分类,这好吗?看数据集里 ,也并不是一句话的多个 triplet 共享同一个关系(不过大部分情况是共享粗粒度的关系)。因此给一句话就得到关系的类型,我觉得这不太靠谱。
具体地,抽关系就是给句子分类,抽头尾实体就是找起始位置这四个 pointer
这张图表示,用先 relation 再头尾实体的方法,在正负例的比例上小得多(负例少得多),因为第一步就是关系种类个,第二步是四倍的句子长度。而 CasRel 这种,第一步就是句子长度种,第二步又是句子长度 * 关系种类个了,负例太多了。第一种传统方法,如果枚举所有的 span 找 entity,那就将是 n * m * m * r 种,就更多了!
他这里用了一个 cPU 的新 loss, a collective loss function that is designed for positive unlabeled learning (PU learning). 简单的来讲,就是在计算 loss 的时候,不是让负样本的 logit 最小,而是让他最接近 $\mu$,这里的 $\mu$ 是错标的 FN 的比例。在本文设置成 $\mu = \pi (\tau + 1)$
最后的实验:上图表明是 sota,下图是在训练时多放 NP,就是少标,发现更 robust
总结:这篇文章带给我的启发就是,即使一开始用句子分类做关系分类那么不靠谱,这结果还是相当不错,应该就是 NF 实在是太多了,所以 trade off 下来还是更好。这个 P3 值得思考