Rethinking Why Intermediate-Task Fine-Tuning Works

  • 来源:EMNLP 2021 findings
  • 机构:台大
  • 任务:Supplementary Training on Intermediate Labeled-data Tasks
  • 动机:STILT 就是现在一个别的任务训练,再在目标任务训练。以前的工作研究过,STILT 对什么任务好,对什么任务不好,发现 STILT 对 containing complex reasoning and inference 的任务最有帮助。这篇文章表明,并非如此。
  • 一个好的中间任务
    1. improving target tasks’ best performance
    2. stabilizing the fine-tuning process of the target tasks, notably reducing the degenerate fine-tuning runs
  • 实验:四个对照的中间任务
    • None: not using any intermediate task, i.e., the standard, vanilla RoBERTa fine-tuning.
    • HellaSwag: using HellaSwag as the intermediate task. (HellaSwag 是个 commobsense QA 数据集,给一个问题四个答案选一个,错误答案都是给机器 premise 生成的)
    • HellaSwag-p: using the first proposed baseline, which ablates HellaSwag’s premises. (只给四个选项,ablate 掉 reasoning,相当于让模型判断“是不是机器生成的”)
    • Syn_GPT2: using the second proposed intermediate task, which is synthesized by GPT2.(wiki 上的句子,前半句作为 promise,后半句作为正确选项,错误选项使用 GPT2 + premise 生成,相当于 ablate 掉 commensense(普通的句子里没有 commensense))
  • 实验结果
    • 在不同数据集上,引入的三个中间任务都能提升最好成绩;在不同的参数 setting 下,也能更 rubust
    • 三个中间任务差不多,说明跟 commensense 和 reasoning 没啥关系
  • 感受:这个实验设计的是真好啊!不过文章立意就是在批评别的工作,这样还挺罕见的

发表评论