基于令牌级反馈的强化学习可控文本生成
提出了一种新的方法,在无监督文本风格转换任务中使用强化学习,通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题,相较于当前的奖励塑造方法,使用密集奖励提高了 22%的风格转换质量,同时训练效率提高了 2.5 倍,速度提高了 7 倍。
Apr, 2022
大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过 LLM 微调,它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列,以引导生成高奖励序列。然而,这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中,我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题,我们建议明确地在部分序列上训练 Bradley-Terry 奖励模型,并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地,我们展示了这个策略与两个不同的 RLHF 策略之比成正比。我们展示了我们简单的方法优于之前的 RGTG 方法,并且在没有大规模 LLM 微调的情况下实现了与强大的线下基准的类似性能。
Jun, 2024
探讨利用大型语言模型(LLMs)控制文本难度的问题,在不完全精通的终端用户环境中(如语言学习者),通过使用新颖框架评估了几种关键方法的效果,包括少样本提示、监督微调和强化学习(RL),使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时,GPT-4 和开源模型之间存在很大的性能差距。然而,我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型,CALM(CEFR 对齐语言模型),在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。
Jun, 2024
本研究提出了一种基于强化学习算法的语言模型微调方法,通过与动态黑盒引导语言模型(GPT-3)相互作用,比传统监督学习和 PPO 策略优化算法表现更好,尤其在语义和词汇多样性等方面的指标上有改善。
Jun, 2023
本文研究了基于文本的强化学习,讨论了语义理解和语言能力对强化学习代理的训练效率以及在类似语义训练游戏中的表现的影响,旨在为文本强化学习情景下的代理微调开发更好的策略。
Apr, 2024
本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性,包括层级生成和约束解码,并应用于故事、诗歌、比喻语言的创意生成,以及减少生成模型的社会偏见。
Sep, 2022
用新的 RL 方法 RLMEC,结合生成模型作为奖励模型,通过编写最小错误重写任务的错误解决方案,为 RL 训练产生基于令牌级的奖励,同时设计了基于令牌级的 RL 目标和基于模仿的正则化,以减少其他不重要令牌的影响,并证明了该方法在数学任务和问答任务中的有效性。
Jan, 2024
本文提出在语言模型中使用策略梯度强化学习进行微调,以直接优化更好的文本生成,将这种方法应用于最小化生成文本中的重复,并展示了当与 unlikelihood training 相结合时,我们的方法进一步减少了重复而未影响语言模型质量。此外,我们还评估了其他方法来改进训练和解码时间,并使用各种度量标准来比较它们,以达到更好的文本生成输出的控制。
Jan, 2021
我们提出了一种基于提示的长度控制方法,通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成,从而实现长度可控的生成,该方法在广泛适用于类似 GPT 的大型语言模型的同时,显著提高了摘要任务中基于提示的长度控制的准确性。
Aug, 2023