Revisiting Few-shot Relation Classification: Evaluation Data and Classification Schemes
2021-04-20 2021-04-20
来源:ISCOL 2020 (伊朗的一个会议) arXiv:2104.08481v1
任务:少样本关系分类
动机:FewRel 和FewRel 2.0 太简单啦
做法:
对数据集提出的要求:
(a) some relations are rarer than others.
(b) most instances do not correspond to a target relation.
(c) many instances may not correspond also to a background relation.
(d) relation instances may include named entities, as well as pronouns and common noun entities.
造数据集:从 TACRED 造了一个小样本的数据集,有以下的特点:
关系是长尾分布的(FewRel 平均分布)
NOTA 包括 no-relation、训练集里的 relation,和测试集里不属于当前 episode 的 relation(FewRel 只有最后一类)
NOTA 的占比有 97.5%(FewRel 2.0 是 50%)
遵循 TACRED,会出现句子里可能包含 episode 里面有的 relation 的关系对,但是要分类的关系对是 NOTA 的情况
新方法:将 NOTA 看做一类或几类
这是原先的度量学习方法,不带 NOTA
这是基于阈值判断 NOTA
这是将 NOTA 看做一类,让 NOTA 处在不同簇的缝隙里。个人认为这是不合理的。如果 NOTA 是 no-relation 倒还好,可是 NOTA 里面包含了 train 和 dev 里面的关系,这些都是应该放在簇里面的。NAV 就是一个 NOTA 类的方法,MNAV 就是 NOTA 作为多个类的方法