跳至内容
- 来源:ACL 2021
- 任务:Nested NER
- 方法:
- 先枚举所有小于定长的 span 作为 candidate span;然后在这些 candidate 里面 ① 根据与 gold 重叠的比率,用 Span Proposal Filter(分类器) 区分成 span proposals (重叠多的)和 contextual spans(少的)② 用 Boundary Regressor 给 span proposals 的边界调整位置(边界与 gold 越接近,分数越高);最后再给 span 做实体类型的分类。
- 原来的方法相当于是,只有 gold 作为正样本,其他的 span 都是负样本。但是这篇文章的做法就也利用上了和 gold 重叠一部分的 span,Span Proposal Filter 的 loss 里面,是按照重叠的多少分成正负样本,且重叠最多/最少,就在 loss 里面权重最大。Boundary Regressor 的 loss 可能是来自于目标检测?没有太看明白,后面实体分类就是交叉熵。
- 在预测的时候,挑出 span proposal 之后,使用一个 Soft-NMS 函数来过滤 false positive。这个函数就是按照分数从大到小遍历实体,对于这个实体,再遍历所有实体,把和这个实体重叠较多的,分数拉低。最后还是通过分数阈值来选择结果。
- 这篇文章让我对正负样本又产生了新的看法。正与负,这其实可以是连续的,黑白之间可以有很多灰?只是灰的标准需要来精心设计。