跳至内容
- 来源:ICML 2021
- 机构:StandFord,Chelsea Finn
- 任务:model 在数据 Group 的 Robustness(就是在特定数据(比如长尾数据)上表现别太差)
- 动机:先找到差的数据,再增强
- 任务:

- 比如在这个水鸟还是地鸟的任务里,本来是应该按照鸟分类的,但是实际上背景对分类结果影响很大,尤其是地上的水鸟和水上的地鸟,很容易错。这个任务就要提升在最容易错的 group 上的 acc(同时让整体的下降的不多)
- 方法:
- 先直接训练 $T$ 个 eph,然后将错误样本拿出来,复制 $\lambda$ 次,放到数据集里继续训练
- 第一轮只训 $T$ 个 eph,是为了避免对训练集的过拟合
- 实验:
- 数据集都挺有意思,我详细说下:
- Waterbirds 上边说了
- CelebA 目标分辨是否为金发,混淆特征是性别
- MultiNLI 目标做语义蕴涵,混淆特征是后半句里有没有否定词
- CivilComments-WILDS 目标分类恶评,混淆特征是种族、LGBTQ 和信仰
- 数据集分 group,就是按照混淆特征与目标特征的交叉来分的(就和上图也一样)
- worst group 和复制的相关性:worst group 被复制的次数是普通样本的 2-15 倍,worst group 里面 95% 的样本都被复制了
- 修改 error set,修改里面不同 group 的比例,有影响;比例不动修改某些 instance,几乎没影响
- 需要在 dev 上调复制的次数,因此还是要有 group 的标注。只不过在这个方法里,1/20 的 dev 有 group 标注就够了
- 如果每 K eph 就更新 error set,反倒性能不好。作者说可能是因为,本身不同 eph 的 error 就会有很大的差距(可是上上上条说只有比例重要啊?)。