Dec, 2021

避免灾难性遗忘的有条件语言模型控制

TL;DR该论文探讨了如何利用能量基模型(EBMs)来实现fine-tuning,提出了条件分布策略梯度(CDPG)用于解决基于条件任务的fine-tuning,结果显示CDPG确实可以在不毁掉预训练模型通用能力的情况下,帮助模型更好地适应特定任务的需求。