Progressive Generation of Long Text with Pretrained Language Models

  • 来源:NAACL 2021
  • 机构:CMU
  • 任务:长文本生成
  • 动机:以前长文本生成是 plan then generate,生成的还是不够长(这篇文章生成的是 1000 token 的长长文本)。生成的时候,很多没啥信息量的词不需要啥上下文,而关键的词 have long-term impact on the whole content of the passage。于是本文就类似 progressive GAN 的方式,从低分辨率到高分辨率逐步训练
  • 方法:
    • 分成 n 轮,一开始生成关键的词,后面补充不关键的词,关键程度越来越弱。这里关键程度就由 tfidf 来表示。
    • 每一轮生成的备选词典就是下一轮的子集,是上一轮的父集,就是关键程度 > 某个值的所有词
    • 每一轮就是一个模型,都是带 prompt 的生成模型。怎么声称这种穿插进去的呢?文章中说,although our approach implements a non-monotonic generation process that produces importance words first, we can generate intermediate sequences ck at each stage still in a left-to-right manner. Thus, we can plug pre-trained LM, such as GPT-2 or BART, into each stage to carry out the generation. 看他这个意思,感觉就是分成很多段,每段都是用上次的作为开头,然后自回归的生成一些(?)
    • 多轮生成会有曝光偏差(前面错了,后面越错越离谱),因此,每轮的模型里,作者都引入了噪声,即随机找个 n gram 换成别的 n gram

发表评论