无需贝尔曼完备性：基于模型的回归条件监督学习的轨迹拼接方法

Oct, 2023

无需贝尔曼完备性：基于模型的回归条件监督学习的轨迹拼接方法

Free from Bellman Completeness: Trajectory Stitching via Model-based Return-conditioned Supervised Learning

Zhaoyi Zhou, Chuning Zhu, Runlong Zhou, Qiwen Cui, Abhishek Gupta...

TL;DR在本文中，我们展示了基于回报条件的监督学习（RCSL）的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛，使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能，并提出了 MBRCSL 框架，通过利用学习的动力学模型和前向采样来实现轨迹拼接，从而避免了所有动态规划算法中困扰的 Bellman 完备性需求。

Abstract

off-policy dynamic programming (DP) techniques such as $Q$-learning have proven to be an important technique for solving sequential decision-making problems. However, in the presence of function approximation such algorithms are not guaranteed to converge, often diverging due to the ab

off-policy dynamic programming return-conditioned supervised learning bellman-completeness multilayer perceptron mbrcsl

发现论文，激发创造

基于线性贝尔曼完备性的计算高效强化学习

我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Jun, 2024

线性贝尔曼完备性足以实现少动作高效在线强化学习

这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法，并提供了首个多项式时间复杂度的算法。

Jun, 2024

价值增益的条件监督学习用于离线强化学习

通过结合 Neural Tangent Kernel 分析的价值函数，Value-Aided Conditional Supervised Learning (VCS) 方法有效地克服了 return-conditioned supervised learning (RCSL) 和 value-based methods 所面临的实际挑战。实证研究表明，VCS 不仅明显优于 RCSL 和 value-based methods，而且在各种离线强化学习基准测试中始终达到甚至超过最高的轨迹回报，为离线强化学习打开了新的道路，并推动了进一步的创新。

Feb, 2024

从泛化的角度弥合 TD 学习和监督学习之间的差距

通过分析发现，强化学习算法中的 ' 拼缝属性 ' 与组合泛化相关，而监督学习算法缺乏这一属性，但可通过数据增强的方法解决，从而提高时序数据（如音频、视频或文本）的组合泛化和数据效率。

Jan, 2024

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

学习 Bellman 完整表示以进行离线策略评估

该研究提出了一种名为 “BCRL” 的算法，用于学习线性 Bellman 完备的表示，并用于离线策略评估，同时在图像基础的连续控制任务中表现出较好的性能。

Jul, 2022

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

BaRC：机器人强化学习的反向可达性课程

借助物理先验形式的近似系统动力学模型，我们设计了一个课程方案来优化无模型策略优化算法。我们的课程策略在任何模型无关 RL 算法上都是通用的，并且其课程战略在物理上直观、易于调节，并允许加速培训，同时不影响模型无关 RL 算法的性能、灵活性和适用性。

Jun, 2018