Larger-Context Tagging: When and Why Does It Work?
2021-04-12 2021-04-12
来源:arXiv 2104.04434v1
机构:复旦 CMU
任务:文档级的序列标注任务(NER 和中文分词)
这篇文章的动机是讨论,序列标注任务用更多的上下文(文档级)有没有帮助。作者就设计了如图所示的四种扩充到文档级的方法(都很简单),然后在很多数据集上进行实验。这个实验还是挺有意思,它相当于是先确定了数据的很多指标(比如 entity span 长度,句子长度,entity 密度(1➗2),oov 词占比等等),然后以某一个指标的数值为横坐标,看四种扩增到文档级的方法对整体效果的增减。一堆实验的结论五花八门,两个任务上不同方法不同指标上,扩到文档级有好有坏,找不出啥规律,甚至 + BERT 也是有好有坏,真的非常奇怪。按照我的理解,如果一个方法对某个指标是有效的,那么对于所有类似的任务,不都应该是有效的吗?这篇文章上看来,数据集的差别可能不比任务的差别小!最后综合的结论是,The source of gains, though, is dataset- and aggregator- dependent, a relatively consensus observation is that text spans with lower label consistency and higher OOV density can benefit a lot from larger- context training。