Oct, 2019

对话响应模型预训练微调中的遗忘问题分析

TL;DR本研究探讨预训练 - 微调框架中的微调阶段如何改变预训练神经语言生成模型的行为,发现标准微调后模型遗忘了某些重要的语言生成技巧,提出了一种直观的微调策略 “混合回顾”,能够缓解模型遗忘现象,最终讨论了对话模型的有趣行为及其含义。