The Power of Scale for Parameter-Efficient Prompt Tuning

  • 来源:arXiv:2104.08691v1
  • 机构:google
  • 任务:prompt tuning
  • 这篇文章使用的方法和其他的 prompting 不一样,这里是固定了魔性的所有参数,只在输入的句子之前,加上与任务相关的 prompt / prefix,只把这个 prompt 当作可以调的参数,其他全都不动,即 $Y | [P;X]$。这样以来,prompt 对应的参数相当于新的 task-specific 参数,而保持原来 T5 的参数不动,相当于“通用”参数。
  • 普通的 prompt tuning 存在问题:
    • 需要人设计
    • 长度受到 512 的限制
    • prompting 方式性能还是不如普通的 finetune
  • 照片 2021年5月27日 100213.jpg
  • 几种 setting 的对比:
    • a 不同的 prompt 初始化:随机、从真正的 word 的 embedding 里随机找、用标签名(这里没太理解,prompt 长度很长的时候,怎么用标签名初始化?更长的部分呢?):用标签名最好
    • b prompt 长度:越长越好
    • c 预训练的任务:
      • T5 原先的预训练任务:输入 “Thank you me to your party week” 输出 “ for inviting last ”
      • span corruption:输入句子,输出 prompt
      • span corruption + sentinel:输入输出前面都拼个
      • LM adaptation:输入 prefix,输出句子
    • d 步数
  • 这里面,小模型能胜过中模型,作者说是因为 there is random luck in which pre-trained checkpoints are able to “overcome” span corruption through prompting alone. This hypothesis could be tested by pre-training new models from scratch.
  • 照片 2021年5月27日 101850.jpg
  • 这张图是为了 ensemble,不是我之前想当然的 multi-task。ensemble 就是多个 prompt 的组合,这里是直接把多个 prompt 都放在一个模型训(因为反正模型参数也是 frozen 的),然后用投票的到最后的结果。这里我在想,普通的 prompt-tuning 也能这样 ensemble 吗?
  • The ability of our prompts to match the performance of model tuning suggests that task definitions exist in their own subspace of parameters.
    Looking forward, we believe that factoring out task-defining parameters as distinct from general language-modeling parameters is an exciting step that opens up several avenues for new research.

发表评论