跳至内容
- 来源:EMNLP 19
- 机构:FAIR
- 动机:to what extent pretrained language models store factual and commonsense knowledge
- 结论:BERT 不用 finetune,里面就包含很多 relational knowledge。甚至在开放域问答上,都有很好的表现
- 新任务:The LAMA Probe
- 用来测试 PLM 是否包含 factual and commonsense knowledge。
- 数据集里是 triplet 或者 QA pair,评测时全都转换成完形填空的格式,看正确的 token 在 PLM 预测出的 logits 里排第几
- 数据集来源:
- 一部分来自 Google RE,只取 “place of birth”, “date of birth” and “place of death” 这三种关系的 triple (60k)
- 一部分来自 T-REx,41 种关系,每种最多 1000 个(这俩都只有 triple,就手写 prompt 提问 PLM)
- 一部分来自 ConceptNet,只取 object 是一个词的 16 种 commonsense relationships(这个有 context,就给每个 triple 选一句)
- 一部分来自 SQuAD,将问句改成填空。

- 实验:
- baseline:(我其实不太理解为啥要用这些作为 baseline,感觉更应该直接用规则在 wikidata 里面找答案?这不才是 “as KB” 的意思吗?)
- freq:对于这种关系,返回最多出现的 object
- RE:基于 LSTM 的预训练的关系抽取器,在句子里抽所有的 triple,对于 query,就在这些 triple 结果里匹配
- DrQA:非参数模型的开放域问答模型
- 评测:如果有多个答案,评测时的每个样本也只考虑一个答案(就是在排序的时候,在榜单里删去其他的正确答案)
- 设计的一些考虑:
- 给 triple 设计不同的 template 提问 PLM,会有不一样的结果,作者因此认为,LAMA 的任务是给出 PLM 包含知识量的一个下界
- 只预测一个 token,是为了不引入新的参数再去训练
- 只预测 object,不预测 relation,是因为 relation 容易根据 context 推出来,跟“找知识”的目标不符,同时 relation 也很少是单个 token 的
- 不同 PLM 词表大小不一样,因此排序时就不公平。这里统一了词表(可是后人在用 LAMA 评测的时候,统一了吗?)
- 结果:

- 指标是 p@1,“gold 排第一的”比率,可以发现,LM 要比各种 baseline 都好。

- 不管是看 p@几,都是一样的趋势