价值增益的条件监督学习用于离线强化学习

Feb, 2024

价值增益的条件监督学习用于离线强化学习

Value-Aided Conditional Supervised Learning for Offline RL

Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung

TL;DR通过结合 Neural Tangent Kernel 分析的价值函数，Value-Aided Conditional Supervised Learning (VCS) 方法有效地克服了 return-conditioned supervised learning (RCSL) 和 value-based methods 所面临的实际挑战。实证研究表明，VCS 不仅明显优于 RCSL 和 value-based methods，而且在各种离线强化学习基准测试中始终达到甚至超过最高的轨迹回报，为离线强化学习打开了新的道路，并推动了进一步的创新。

Abstract

offline reinforcement learning (RL) has seen notable advancements through return-conditioned supervised learning (RCSL) and value-based methods

offline reinforcement learning return-conditioned supervised learning value-based methods neural tangent kernel analysis trajectory return

发现论文，激发创造

对比价值学习：简单离线强化学习的隐式模型

本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中，在不受奖励函数限制下，学习一个隐含的、多步骤的环境动力学模型，直接估计每个动作的价值，并在复杂的连续控制基准测试中优于先前的离线 RL 方法。

Nov, 2022

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

无需贝尔曼完备性：基于模型的回归条件监督学习的轨迹拼接方法

在本文中，我们展示了基于回报条件的监督学习（RCSL）的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛，使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能，并提出了 MBRCSL 框架，通过利用学习的动力学模型和前向采样来实现轨迹拼接，从而避免了所有动态规划算法中困扰的 Bellman 完备性需求。

Oct, 2023

变分课程增强学习用于无监督技能发现

基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出，但由于训练技能的顺序会在很大程度上影响样本效率，对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习（VCRL）的方法，将变分增强视为内在奖励函数的目标条件强化学习中的课程学习，并基于信息理论提出了一种无监督技能发现的新方法，称为值不确定性变分课程（VUVC）。我们证明，在一定的正则条件下，与均匀课程相比，VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性，同时以零次设定下的真实世界机器人导航任务为例，证明了通过我们方法发现的技能能够成功完成任务，并且将这些技能与全局规划器相结合可以进一步提高性能。

Oct, 2023

离线强化学习中的保守状态值估计

本文提出了一种名为 CSVE 的保守状态价值估计方法，利用惩罚来学习保守的 V 函数，应用于实际的演员 - 评论家算法中，具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中，我们的方法表现比保守 Q 函数学习方法更好，并在最近的 SOTA 方法中占据了强有竞争力的地位。

Feb, 2023

离线强化学习的置信度条件值函数

本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现，并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

Dec, 2022

离线强化学习通过监督学习的必要条件是什么？

离线强化学习中的监督学习方法及其必要算法组件已被证明可以达到与基于 TD 学习或序列建模的复杂方法相当的高效性；如何选择模型容量和条件信息（例如目标或奖励）可以对性能产生至关重要的影响，这提供了对 RvS 学习从业者的指南。

Dec, 2021

增值取样用于语言模型对齐和个性化

通过价值增强抽样（VAS）的奖励优化框架，不需要共同训练策略和值函数的情况下，最大化不同奖励函数，相较于现有基线模型，在标准基准测试中不仅优于 PPO 和 DPO，而且与 Best-of-128 相比具有更低的推理成本，从而实现了优化的稳定性，并能适应仅作为 API 提供的 LLMs（例如 ChatGPT），同时为对齐的个性化 LLMs 的未来铺平道路。

May, 2024

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023