- 价值改进的演员评论算法
通过在策略和价值中分别应用改进算子,本研究提出了一种对演员 - 评论家(AC)框架的通用扩展,命名为 Value-Improved AC (VI-AC),并设计了 VI-TD3 和 VI-DDPG 两个实际算法,在 Mujoco 基准测试中 - Oracle 高效最大值集成强化学习
通过可伸缩方法进行策略改进的学习算法,仅使用成分策略而非其价值函数来与最优策略竞争,并展示其实验有效性和行为特性。
- 噪声蒸馏下的上下文强化学习的出现
通过与环境的交互实现对未知任务的概括,我们提出了一种方法 AD^ε,该方法通过人类示范的较差策略引入噪音并逐渐改进,实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中,我们的方法相比于最佳策 - ICML离线强化学习的支持信任域优化
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze - Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化
利用 Uni-o4 方法,将离线学习和在线学习无缝结合,通过离线的策略评估和多步策略改进,实现了优越的离线初始化和稳定快速的在线微调能力,被证明在真实世界环境和模拟基准测试中表现出最先进的性能。
- 训练一次,得到一个家庭:离线到在线强化学习的状态自适应平衡
离线到在线强化学习 (RL) 是一种训练范式,它将在预先收集的数据集上进行预训练,并在在线环境中进行微调。然而,在线微调的引入可能加剧已知的分布偏移问题。现有的解决方案通过对离线和在线学习中的策略改进目标施加策略约束来解决这个问题。它们通常 - 使用一致性策略提升连续控制
通过一步将噪声转化为动作,我们提出了一种名为 CPQL 的新型时间效率方法,解决了扩散模型在更新时的时间效率和准确性指导方面的问题,从而实现了脱机强化学习的策略改进,并可以无缝地扩展到在线强化学习任务中,最终实验结果表明,CPQL 在 11 - FP3O: 多智能体合作中的参数共享灵活性下 Proximal Policy Optimization 的实现
为了解决现有多智能体 PPO 算法在扩展 PPO 的理论保证到合作多智能体强化学习时的不兼容性问题,本文提出了一种新颖且多功能的多智能体 PPO 算法。该算法基于全流水线范例,通过采用不同的优势函数等效分解建立多个并行优化流水线,成功地更一 - 百人为导师,百万人引领:自适应离线强化学习与专家指导
离线强化学习中典型问题是分布转移问题,我们提出了一种名为 Guided Offline RL(GORL)的新方法,使用引导网络和少数专家演示样本,自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明,GORL - ICML强化学习中一步正则化与评论员正则化之间的联系
该研究论文介绍了离线强化学习中的正则化方法,探讨了一步方法和评论家正则化方法之间的联系,并表明在需要强正则化的强化学习问题上,一步方法可能与评论家正则化方法具有竞争力。
- 基于模型的规划提炼出有理论保证的策略改进
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
- 通过离线数据设计实验,对增强学习中的策略进行微调
利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。
- MuZero 学习的模型是什么?
本文介绍了一种名为 MuZero 的深度模型强化学习算法,研究其深度学习模型的学习目标和用于策略改进的实用性,结果表明 MuZero 所学模型不能有效地推广到评估未知的策略,这限制了我们使用该模型进行计划进一步改善当前策略的程度。
- VA-learning 作为比 Q-learning 更高效的替代方案
本研究介绍了 VA-learning 方法,通过学习优势函数和价值函数的直接引导,而不需要参考 Q 函数,从而提高了样本效率,并且在 Atari-57 游戏上,VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learn - 自动温度调节的 Soft Actor-Critic 算法正则化
本文通过自动温度调整来规范化 Soft Actor-Critic(SAC)算法,重构政策评估、政策改进和温度调整的理论,以更明确的方式优化原始算法。
- 蒸馏策略优化
本文提出了一种基于演员 - 评论家学习框架的算法,通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习,并且采用方差约减机制和学习基线以稳定策略梯度的方法,从根本上改进了样本效率和可插值性。
- 多人模仿学习中的兼容演示引导
研究通过基于人提供的演示的模仿学习来学习机器人操作策略,通过测量新演示与基本策略的兼容性并积极征求新用户的兼容演示,从而改善任务成功率。
- 互信息正则化的离线强化学习
本文提出一种基于互信息的新框架 (MISA),用于解决离线强化学习中的分布偏移问题,通过直接限制策略改进方向来有效地利用行动和状态之间的相互依赖关系,同时在策略评估和改进中增加相互信息的正则化。
- 作为离线强化学习表现策略类别的扩散策略
本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。
- ICML使用几何策略组合的广义策略改进
本文介绍了一种基于几何地平线模型来提高政策表现的方法,该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略,此方法证明了在深度强化学习中取得了不错的效果。同时,文章提供了对 GHM 训练方法的分析和收敛性研究。