跳至内容
- 来源:arXiv:2009.06207v2
- 机构:浙大陈华军
- 任务:joint triple
- 动机:用生成做 Joint RE。以前生成模型一般不能生成太长,而且生成的 triple 之间毫无关系
- 方法:

- 整体如图所示,分成两个部分
- Generative Transformer 就是输入句子,生成
(就是句子中间穿插加入 triple 和特殊分隔符?) - GT 里面,一般生成是要 attend 前面所有 token 的,这里设计了一个 mask 来挡住,就能生成比较长的了
- Triplet Contrastive Learning:解决动机 2。句子+一个 triple 拼接输入 encoder,对比学习,负例就是随机的 triple
- 整体训练的时候,不能就直接一起,因为 contrasive 的输入数据直接把结果给 encoder 了。所以又引入了 batch-wise dynamic attention masking,就是先挑生成的句子,剩下的里面再挑对比学习的训练样本
- 预测的时候,引入 triple-wise calibration,就是看 triple 在 contrasive loss 的 positive logits 是否超过阈值
- 实验:
- 虽是生成做 triple 的 sota,但是比真正的 sota 还是差点。奇怪的是,NYT 差不多,WebNLG 却差很多