通过细粒度强化学习和最小编辑约束改进大型语言模型

Jan, 2024

通过细粒度强化学习和最小编辑约束改进大型语言模型

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Junchen Wan, Fuzheng Zhang...

TL;DR用新的 RL 方法 RLMEC，结合生成模型作为奖励模型，通过编写最小错误重写任务的错误解决方案，为 RL 训练产生基于令牌级的奖励，同时设计了基于令牌级的 RL 目标和基于模仿的正则化，以减少其他不重要令牌的影响，并证明了该方法在数学任务和问答任务中的有效性。

Abstract

reinforcement learning (RL) has been widely used in training large language models~(LLMs) for preventing unexpected outputs, \eg reducing harmfulness and errors. However, existing RL methods mostly adopt the instance-level reward, which is unable to provide →

reinforcement learning language models generative model token-level rewards fine-grained supervision

发现论文，激发创造

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

使用神经增强学习修正语法错误

该研究提出了一种使用神经编码器 - 解码器模型和强化学习来进行语法错误校正的方法，并探讨了相较于传统的最大似然估计方法的优越性。研究表明，该方法在人工和自动评估指标上的表现都优于最大似然估计，达到了流畅度优化的语法错误校正数据集上的最先进的水平。

Jul, 2017

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

强化学习思考的语言模型自我提升

本文介绍了一种新的无监督方法 SIRLC，通过强化学习来提高 LLMs 的性能，无需依赖外部标签。该方法把 LLMs 分配为学生和教师两个角色，通过评分策略来更新模型参数，实验结果表明，SIRLC 能够有效提高 LLM 的表现，适用于多个自然语言处理任务，并且无需外部监督。

May, 2023

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

利用大型语言模型的强化学习修复代码安全漏洞

为了加强和增强通过 Large Language Models 生成的代码的安全性，在本文中，我们提出了一种基于强化学习的程序特定修复方法，结合语义和句法奖励机制，重点关注在代码中增加安全和功能性措施。

Jan, 2024

基于令牌级反馈的强化学习可控文本生成

提出了一种名为 TOLE 的新颖强化学习算法，用于控制大型语言模型的生成，并在单属性和多属性控制任务上取得了优异的性能。

Mar, 2024

基于强化学习的情感编辑约束对话生成

本论文提出了一种结合强化学习和情感编辑约束的会话内容生成模型，将回复分成三个从预生成的关键词中获得的子句，并使用情感编辑器进一步优化最终回复，实验表明该模型可以提高回复的流畅度、逻辑相关性和情感相关性。

Apr, 2019

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023