基于熵正则化的大型语言模型的令牌级策略优化

Feb, 2024

基于熵正则化的大型语言模型的令牌级策略优化

Entropy-Regularized Token-Level Policy Optimization for Large Language Models

Muning Wen, Cheng Deng, Jun Wang, Weinan Zhang, Ying Wen

TL;DR基于大型语言模型的研究中，引入了一种基于令牌级策略优化的熵调整强化学习方法（ETPO），致力于优化令牌级的语言模型，结果显示 ETPO 在数据科学代码生成任务中取得了良好的性能改进，具有优化交互决策能力的潜力。

Abstract

large language models (LLMs) have shown promise as intelligent agents in interactive decision-making tasks. Traditional approaches often depend on meticulously designed prompts, high-quality examples, or addition

large language models reinforcement learning token-level policy optimization language modeling interactive decision-making

发现论文，激发创造

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法，通过对奖励模型的不确定性进行量化，并通过分布鲁棒优化处理奖励模型的置信区间，从而增强性能。

Mar, 2024

DPO 相遇 PPO：针对 RLHF 的强化标记优化

在这篇研究中，我们介绍了一种将人类反馈引入加强学习的框架，并提出了一种基于标记级别信息的算法，通过学习标记级别的奖励函数并进行策略优化，从而有效地解决了传统深度强化学习中的挑战。

Apr, 2024

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

线性时态逻辑约束下的策略优化

本文研究了带线性时间逻辑约束的策略优化问题。通过使用生成模型和 LTL 语言，提出了一种基于模型的方法，用于在低样本数据情形下保证任务满足和成本最优的算法。

Jun, 2022

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

近端策略优化实战：操纵输出标记长度

通过使用奖励模型和 Proximal Policy Optimization（PPO）来操控模型生成的输出 tokenizer 长度的新任务，实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。

Aug, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024