Revisiting Few-shot Relation Classification: Evaluation Data and Classification Schemes

  • 来源:ISCOL 2020 (伊朗的一个会议) arXiv:2104.08481v1
  • 任务:少样本关系分类
  • 动机:FewRel 和FewRel 2.0 太简单啦
  • 做法:
    • 对数据集提出的要求:
      • (a) some relations are rarer than others.
      • (b) most instances do not correspond to a target relation.
      • (c) many instances may not correspond also to a background relation.
      • (d) relation instances may include named entities, as well as pronouns and common noun entities.
    • 造数据集:从 TACRED 造了一个小样本的数据集,有以下的特点:
      • 关系是长尾分布的(FewRel 平均分布)
      • NOTA 包括 no-relation、训练集里的 relation,和测试集里不属于当前 episode 的 relation(FewRel 只有最后一类)
      • NOTA 的占比有 97.5%(FewRel 2.0 是 50%)
      • 遵循 TACRED,会出现句子里可能包含 episode 里面有的 relation 的关系对,但是要分类的关系对是 NOTA 的情况
    • 新方法:将 NOTA 看做一类或几类
      • 这是原先的度量学习方法,不带 NOTA
      • 这是基于阈值判断 NOTA
      • 这是将 NOTA 看做一类,让 NOTA 处在不同簇的缝隙里。个人认为这是不合理的。如果 NOTA 是 no-relation 倒还好,可是 NOTA 里面包含了 train 和 dev 里面的关系,这些都是应该放在簇里面的。NAV 就是一个 NOTA 类的方法,MNAV 就是 NOTA 作为多个类的方法
  • 实验:
    • FewRel 2.0 上 MNAV 的方法超过了数据集文章中的方法
    • 在新的 Few-Shot TACRED 上,所有方法都很弱 5-way 1-shot 12.39 ± 1.01%,5-way 5-shot 30.04 ± 1.92%
    • 验证 FewRel 2.0 和 Few-Shot TACRED 数据集的区别:数据量只会影响 5% 的性能,区别不大;提升 FewRel 2.0 的 NOTA 比例,有 33% 的降低;TACRED 包含更多 entity type(named entities, common nouns and pro- nouns),更难
  • 感觉是基于 FewRel 2.0 的一个小小拓展,水平一般,方法不 make sense

发表评论