基于隐式语言 Q 学习的自然语言生成离线强化学习

Jun, 2022

基于隐式语言 Q 学习的自然语言生成离线强化学习

Offline RL for Natural Language Generation with Implicit Language Q Learning

Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine

TL;DR本文提出了一种离线强化学习方法 ILQL，以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点，以指导语言模型的生成来最大化效用，并在自然语言生成环境中有效地优化高方差奖励函数。

Abstract

large language models distill broad knowledge from text corpora. However, they can be inconsistent when it comes to completing user specified tasks. This issue can be addressed by finetuning such models via supervised learning on curated datasets, or via reinforcement learning. In this

large language models offline rl utility optimization language model generations natural language generation

发现论文，激发创造

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

基于优势离线策略梯度的语言模型优化

本文提出了一种名为 Left-over Lunch RL (LoL-RL) 的简单算法，通过离线策略梯度学习语言生成任务作为一步强化学习游戏来微调语言模型以优化任意分类器或人为定义的效用函数，并且通过使用多个奖励模型的不同大小的模型和多个任务的实验表明，使用 LoL-RL 训练的模型可以始终优于最佳监督学习模型。

May, 2023

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明，与 IQL 和 IDQL 相比，我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题，在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中，我们的方法明显优于 IQL 和 IDQL。

May, 2024

Cal-QL: 在线微调高效的离线校准强化学习预训练

本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架，称作 Cal-QL，该方法可以快速优化在离线数据上学习的策略，并在探索困难的情况下进行预训练，实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。

Mar, 2023

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

离线激励评估与优化

这篇论文介绍了 Prompt-OIRL，一种根源于脱机逆强化学习的方法，它旨在弥合有效提示评估和可承受性之间的差距，验证了该方法在四个 LLM 和三个算术数据集上的有效性，并释放了代码和离线数据集。

Sep, 2023

使用残差生成建模提升离线强化学习

本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习，并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明，AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外，该离线 RL 方法在多人在线战场游戏 “王者荣耀” 中能够学习到更具竞争力的 AI 代理。

Jun, 2021

信其所见：离线多智能体强化学习的隐式约束方法

本文介绍了一种新的离线强化学习算法 ICQ，它通过只信任数据集中的状态 - 动作对来有效减轻外推误差，并将其扩展到多智能体任务中，表现出明显的性能优势。

Jun, 2021