Jun, 2022

基于隐式语言 Q 学习的自然语言生成离线强化学习

TL;DR本文提出了一种离线强化学习方法 ILQL,以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点,以指导语言模型的生成来最大化效用,并在自然语言生成环境中有效地优化高方差奖励函数。