多视角强化学习
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
研究了多视角环境下的深度强化学习问题,并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。
May, 2019
本文提出了一种名为 MoVie 的视觉模型策略适应方法,通过在测试期间实现视图泛化,无需任何明确的奖励信号和任何训练期间的修改,可显著提高目标任务的性能表现,这表明该方法在实际中应用于机器人技术具有巨大的潜力。
Jul, 2023
使用多个摄像机同时进行训练,以及利用多个摄像机的不同视角信息来提高增强学习的性能,我们提出了一种名为多视图解缠(MVD)的方法,通过学习来自多个摄像机的策略以实现对训练集中任意单个摄像机的无需示范泛化能力。
Apr, 2024
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
Dec, 2019
本文提出了一个新的强化学习代理,Multi-View Dreaming,用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间,并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2,它使用分类分布来建模潜在状态,并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。
Mar, 2022
本文提出了一种基于深度强化学习和注意力机制的多视角环境下的模型,能够学习一个能够根据每个视角的重要性来动态决策的策略,实验结果表明在各种复杂环境中都表现出色。
Jul, 2019
本文研究了多智能体强化学习在部分可观察性下的挑战性任务,其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈,证明了一个富裕的子类可以使用样本高效的学习方法,从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡,当代理数量很小时可在多项式样本复杂度内学得。
Jun, 2022
通过强化学习中的对比变分方法来解决视觉观测中的复杂性问题,在 Mujoco 任务和机器人推箱子任务中达到了与现有方法相当的状态,并在自然 Mujoco 任务中显著优于它们。
Aug, 2020
本文介绍了将多目标强化学习应用到连续控制问题中,通过元学习的方法探索可能的最优策略,以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。
Nov, 2018