Sep, 2024

通过可扩展的逆强化学习模仿语言

TL;DR本研究解决了传统模仿学习在预训练和监督微调阶段的局限,提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展,研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能,使逆强化学习成为微调大语言模型的有力替代方案。