Template-Based Named Entity Recognition Using BART

  • 来源:arXiv:2106.01760v1
  • 机构:浙大张岳
  • 任务:prompting + NER
  • 动机:这里故事写的不错
    • 特定 domain 数据少,需要 few shot,但是原来的 NER 系统都是 entity type specific,新的 domain 要 retrain
    • 能缓解上述问题的是基于度量的方法,但这又在普通领域性能不行;同时前提假设是不同 domain 说话表达方式差不多
    • prompting:泛化性强(跨 domain 只要小样本)、鲁棒性强(表达方式不一致也行)、换 domain 不用换最后一层参数,可以 continual learning
  • 方法:非常直观,不用于前人 prompting 完形填空的方法,这里给每个实体类型构造模板之后,在训练时用 BART 生成模板,预测时给不同模板打分。
    • 预测的打分是生成模板时,每个 token 的概率的乘积
    • 训练时会有正负样本,如图所示
  • 实验:
    • conll03 全集上 comparable sota,并且 ablation 证明 BART 生成词比 BERT 分类好、模板比单纯 BART 好
    • 多个 prompt 能提升 1.2 pt 的准确率
    • fewshot:同一 domain 跨 entity type、跨 domain 都有效果,新 domain 直接小样本效果也不错
    • 数据集里,长尾样本提升非常明显,量大的样本提升很小
    • continual learning:conll -> MIT movie,前者掉的不多(但是没跟别的方法对比啊?)
    • tsne 画图,发现分类方法里,每个数据集都围城一簇;prompt 的方法里,不同数据集的数据都打散在空间里了(有意思)。作者给结论说,这表明本方法 more domain independent, and our method enjoys better general- ization ability across different domains. 感觉前半句还可以,后半句就是虚假升华了。我觉得不如直接把不同数据集的 entity type 的 proto 也搞出来,看看是不是语义和距离有相关性,这样才可以得出后半句结论?
    • 典型 bad case 是在跨 domain 时,有相似的 entity type(比如 conll 里的 person 和 mit movie 的 actor)

发表评论