Haopeng Ren, et.al, “A Two-phase Prototypical Network Model for Incremental Few-shot Relation Classification”, COLING 2020
1 简介
这篇文章做的任务叫 incremental few-shot relation classification。以前 FSL 的度量学习只在训练过程学习一个好的度量空间,在测试的时候,再把 support set 的信息通过这个度量空间 embedding,得到类别的总体表示——前面用大量样本训练过程的类别信息就浪费掉了。在真实世界的应用里,train 和 test 是有可能出现类别重叠的。因此这篇文章希望一方面能对小样本的类别($R_{novel}$)快速学习,另一方面还能保留大量数据训练得到的那些类别($R_{base}$)的特征表示。
如果用以往的度量学习方法,直接把 $R_{base}$ 保留,这样在 $R_{novel}$ 出现时,就会与 $R_{base}$ 混在一起,如下图最左边所示。和这篇文章加入 ProtoAtt-Alignment 和 Triplet Loss,使得 $R_{base}$ 和 $R_{novel}$ 成功分开,如最右所示。这个方法其实是非常朴素的。
2 方法
embedding 部分和 Hatt-proto 一致:word embedding 和 position embedding 输入,卷积 + 池化,得到 embedding。关系类别时的 proto 也是和 Hatt-proto 一样的 attention 加权得到。
2.1 ProtoAtt-Alignment
训练时得到了 $R_{base}$ 的 proto $v_{base}$,又在 support set 中训练出了 $R_{novel}$ 的 proto $v_{query}$,对 query 推断时,要从这所有的 proto 里面寻找自己的归属。query 首先分别输入 train 阶段的 embedding module 和 support set 训练出的 embedding module,得到两种表示 $x_q^{base}$ 和 $x_q^{novel}$,从而计算出 query 的最终表示 $x_q$:$$x_q = w_bx_q^{base} + w_nx_q^{novel},\quad w_b + w_n = 1$$ $$w_b = \frac{\exp(-d(x_q^{base}, v_{base}))}{\exp(-d(x_q^{base}, v_{base})) + \exp(-d(x_q^{novel}, v_{novel}))}$$
因此这部分其实并没有什么空间的变换,只是保留了 base 和 novel 两个空间,在计算 query 的时候融合两个空间的 embedding。这种做法讲出来感觉还蛮奇怪的。
2.2 Triplet Loss
这篇文章 follow [1],在 episode 里面,让 anchor 和正例尽量近,和负例尽量远。这个做法其实在 TapNet 里面又出现,不过这个跨类别的 anchor 的概念我其实不太理解,我还得看看 [1] #TODO。
3 实验结果
这里得具体说一下实验的 setting。一共 80 类样本,train 54 类各 550 个(相当于全是 base),val 有 54 个 base 各 50 个、10 类 novel 各 700 个,test 有 54 类 base 各 100 个、16 类 novel 各 700 个。这样在 val 和 test 里面就都有 base 和 novel。
- base 和 novel 都是 sota,总体也是 sota。这里详细说明一下,传统的 metric learning 方法对于现在这个 task 有两种做法:一种是直接摒弃 train 得到的所有 proto,test 时的 base 也当做 novel,这样的效果是全都不如本文的方法;另一种是保留 train 得到的 proto,然后继续在这个空间加入 novel 的 proto,这样的方法在 base 上性能是大幅领先本文方法的。
- 如一开始的图片所示,分得很开
- 消融实验表明,两部分创新都有用
4 总结
所以不是一定要想着怎么去改进这个度量空间,在从度量空间得到特征表示之后,其实还有有可以操作的办法的。
5 Ref
[1] Miao Fan, Yeqi Bai, Mingming Sun, and Ping Li. 2019. Large margin prototypical network for few-shot re- lation classification with fine-grained features. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management, pages 2353–2356. ACM.
真不错!保持更新频率呀qwq
嘿嘿 谢谢夏老师 (●゚ω゚●)