多视角强化学习

Oct, 2019

Multi-View Reinforcement Learning

Minne Li, Lisheng Wu, Haitham Bou Ammar, Jun Wang

TL;DR本文介绍了多视角强化学习（MVRL）模型，通过观察模型来解决决策问题，提出了两种求解方法：观察扩展和跨角度策略转移，实验证明这两种方法在处理多视角环境中具有较好的性能，减少样本复杂度和计算时间。

Abstract

This paper is concerned with multi-view reinforcement learning (MVRL), which allows for decision making when agents share common dynamics but adhere to different observation models. We define the MVRL framework by extending →

multi-view reinforcement learning partially observable markov decision processes observation augmentation cross-view policy transfer sample complexities

发现论文，激发创造

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

MoVie: 基于模型的视图概括策略自适应

本文提出了一种名为 MoVie 的视觉模型策略适应方法，通过在测试期间实现视图泛化，无需任何明确的奖励信号和任何训练期间的修改，可显著提高目标任务的性能表现，这表明该方法在实际中应用于机器人技术具有巨大的潜力。

Jul, 2023

多相机强化学习的多视角解缠

使用多个摄像机同时进行训练，以及利用多个摄像机的不同视角信息来提高增强学习的性能，我们提出了一种名为多视图解缠（MVD）的方法，通过学习来自多个摄像机的策略以实现对训练集中任意单个摄像机的无需示范泛化能力。

Apr, 2024

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

多视角环境下深度强化学习的演员 - 评论家 - 注意力机制

本文提出了一种基于深度强化学习和注意力机制的多视角环境下的模型，能够学习一个能够根据每个视角的重要性来动态决策的策略，实验结果表明在各种复杂环境中都表现出色。

Jul, 2019

部分可观马尔可夫博弈中高效学习的样本有效强化学习

本文研究了多智能体强化学习在部分可观察性下的挑战性任务，其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈，证明了一个富裕的子类可以使用样本高效的学习方法，从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡，当代理数量很小时可在多项式样本复杂度内学得。

Jun, 2022

针对复杂观测的对比型变分强化学习

通过强化学习中的对比变分方法来解决视觉观测中的复杂性问题，在 Mujoco 任务和机器人推箱子任务中达到了与现有方法相当的状态，并在自然 Mujoco 任务中显著优于它们。

Aug, 2020

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018