- ICML具有上下文感知标记化的高效世界模型
通过构建 Delta-IRIS,一个世界模型结构,利用离散自编码器和自回归变换器来预测未来时间步的变化量,本研究在 Crafter 基准测试中取得了新的最高水平,而且训练速度比以前的基于注意力的方法快一个数量级。
- CoDreamer:基于通信的分散式世界模型
在强化学习中,样本效率是一个关键挑战。本研究引入了 CoDreamer,这是 Dreamer 算法在多智能体环境中的扩展,利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dr - 高速公路图在强化学习中的加速
为了提高 RL 算法的训练效率,本研究基于高速公路图的观察,提出了一种新颖的图结构,用于模拟状态转换,将 RL 训练在早期阶段显著加速,并在性能上优于其他无模型和带模型的 RL 算法。同时,基于高速公路图训练的深度神经网络代理具有更好的泛化 - 机器人操作中贝叶斯模型的主动探索
通过积极学习方法和贝叶斯神经网络模型,提高机器人操纵的模型质量和数据效率,以应对复杂环境下的多任务处理挑战。
- MAMBA: 一种适用于元强化学习的有效世界模型方法
基于现有先进模型和元学习方法,本文提出了一种新的基于模型的元强化学习方法,通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报,并且具有更好的样本利用效率(高达 15 倍),同时需要很少的超参数调整。此外,我们还在更具挑战性的 - 基于广义占据模型的可转移强化学习
智能代理应该是综合性的,能够快速适应和推广不同的任务,提出了一种新的模型类别 - 广义占据模型(GOM),它在保留模型强化学习的综合性的同时避免累积误差,通过直接建模长期结果,GOM 既避免了累积误差,又在任意奖励函数下保持了综合性。
- MOTO:基于模型的机器人学习的离线预训练与在线微调
我们研究了离线预训练和在线微调在实际机器人任务中从高维观测中进行强化学习的问题,通过控制认知不确定性,我们提出一种基于模型的方法,通过模型值扩展和策略规范化高效地重用先前数据,成功从像素中解决了 MetaWorld 基准和 Franka K - 以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习
强化学习(RL)涵盖了不同的范式,包括基于模型的 RL、基于策略的 RL 和基于值的 RL,本文研究了这些 RL 范式之间表示复杂性的潜在层次结构,从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。
- 多智能体概率合奏与轨迹采样用于连通自动驾驶车辆
我们提出了一种名为 MA-PETS 的分散多智能体概率集成与轨迹采样算法,用于解决限制通信的多个自动驾驶车辆的决策问题,并在理论和实验中验证了其在样本效率方面的优越性。
- TWIST: 教师 - 学生世界模型蒸馏用于高效的模拟到真实转化
使用仿真注入的图像观测作为特权信息,通过教师 - 学生模型蒸馏,本文提出了 TWIST 方法,在基于模型的强化学习任务中实现高效的仿真到实际转移,并在仿真和实际机器人任务中表现出更高的样本效率和任务性能。
- 基于模型的强化学习中的信息 POMDP:利用额外信息
本文使用 POMDP 进行交互学习,并引入了信息学习的范例,提出了学习充分统计来实现最优控制的目标,并通过新提出的环境模型进行学习,最后在 Dreamer 算法中证明了这种方法的有效性和简单性,建议在模型为基础的 RL 的学习中系统考虑未来 - 简化的时间一致增强学习
本文展示了一种简单的表示学习方法:只依赖于通过潜在时间一致性训练的潜在动态模型,既可以在计划类的强化学习中使用,也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法,并在样本效率上达到了模型类方法的水 - Taylor TD-learning
介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。
- ICLR模型集成是否必要?通过具有 Lipschitz 正则化值函数的单个模型实现基于模型的强化学习
本论文通过对 Lipschitz 连续性的解释,提供了两种实用的训练机制,通过计算敌对噪声和规范值网络的谱范数来直接规范价值函数的 Lipschitz 条件。实证结果表明,结合我们的机制,具有单个动态模型的基于模型的 RL 算法优于具有概率 - MoDem: 利用演示加速视觉基于模型的强化学习
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
- 针对鲁棒的基于模型的离线强化学习的领域通用性
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程 - ICLR带不确定性的规划:模型基强化学习中的深度探索
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
- 基于模型的 SINDy 强化学习
利用物理学领域的最新进展,提出一种新的方法来发现强化学习中物理系统的控制非线性动态,并证明此方法能够在很少的轨迹采样数量(仅需要一次 $≤30$ 时间步的轨迹)下发现此动态,从而为系统带来基于模型的强化学习的好处,并且不需要事先开发模型。该 - 指导式安全射击:基于模型强化学习的安全约束
本文介绍了一种基于模型的强化学习方法 Guided Safe Shooting (GuSS),可以学习对系统进行控制,并在保证安全的前提下探索状态空间,从而避免危险情况的发生,并减少与真实系统的交互次数。
- 在信任状态之前双重检查:基于模型的想象中的置信度感知双向离线模型
本文提出一种置信度感知的双向离线模型想象算法,使用训练好的双向动力学模型和推进策略来扩充离线数据集,以增强在线学习的推广能力。实验结果表明,该算法显著提高了现有模型无关的线下 RL 算法的性能,并与基线方法相比获得了竞争性或更好的得分。