continual learning:conll -> MIT movie,前者掉的不多(但是没跟别的方法对比啊?)
tsne 画图,发现分类方法里,每个数据集都围城一簇;prompt 的方法里,不同数据集的数据都打散在空间里了(有意思)。作者给结论说,这表明本方法 more domain independent, and our method enjoys better general- ization ability across different domains. 感觉前半句还可以,后半句就是虚假升华了。我觉得不如直接把不同数据集的 entity type 的 proto 也搞出来,看看是不是语义和距离有相关性,这样才可以得出后半句结论?
典型 bad case 是在跨 domain 时,有相似的 entity type(比如 conll 里的 person 和 mit movie 的 actor)