- 来源:ACL 2021
- 机构:复旦
- 任务:NER
- 动机:实验验证基于 span 和基于序列标注的优缺点,用 spanNER 作为组合不同 NER 算法的方法
- 二者比较:
- SEQLAB-based models are better at dealing with those entities that are long and with low label consistency
- SPANNER systems do better in sentences with more Out-of-Vocabulary (OOV) words and entities with medium length
- 集合结果(Span Prediction for NE Re-recognition):
- 比如有标签 123,10 个 NER system 分别对一个 span 预测的标签是 1321332112,那么最后类别 i 的分数就是 i 在 10 个 NER sys 预测结果的 count * SpanNER 预测的 logit
- 本文中,前面的 NER sys 都是基于序列标注的,只是用了不同的信息(encoder 结构、词向量)
- 实验上,这种用 SpanNER 的方式 bagging,要比其他传统方法都好(个人感觉,融合了两种 inductive bias)