多视角探索最大化解决视觉控制问题

Nov, 2022

多视角探索最大化解决视觉控制问题

Tackling Visual Control via Multi-View Exploration Maximization

Mingqi Yuan, Xin Jin, Bo Li, Wenjun Zeng

TL;DR本研究提出了 MEM: Multi-view Exploration Maximization 模型，它是第一种将多视图表示学习与内在奖励驱动的探索相结合的强化学习方法。实验结果表明，MEM 可以在高维环境和稀疏奖励空间下显着提高强化学习代理的样本效率和泛化能力，从而解决现实世界复杂的视觉控制任务。

Abstract

We present MEM: multi-view exploration maximization for tackling complex visual control tasks. To the best of our knowledge, MEM is the first approach that combines →

multi-view exploration maximization visual control tasks reinforcement learning multi-view representation learning intrinsic reward-driven exploration

发现论文，激发创造

MHER: 基于模型的事后经验回放

通过利用环境动态生成虚拟实现目标的模型相关再标记方法，本文提出了模型 (MHER)。模型同时执行强化学习和监督学习来实现高效的政策改进，通过实验在多个基点任务和模拟机器人环境中显示出比以前的 model-free 和 model-based 多目标方法具有明显更高的样本效率。

Jul, 2021

最大熵模型推出：快速基于模型的策略优化，无需累计误差

本文提出一种最大熵模型回滚算法以解决深度神经网络动力学模型在长期预测时的累积误差问题。作者通过非均匀采样环境状态生成多样性模型回滚，并使用优先经验重放来完成最大熵采样标准。初步实验表明，该算法在效率和性能上都优于其他模型预测算法。

Jun, 2020

VIME：变分信息最大化探索

本篇论文提出了一种基于变分信息最大化探索的方法 VIME，使用贝叶斯神经网络中的变分推断实现，能有效处理连续状态和动作空间，在多种连续控制任务和算法中表现显著优于启发式探索方法。

May, 2016

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

多任务强化学习中的高效短视探索

通过在多个任务上进行训练，可以证明多任务强化学习（MTRL）中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计，这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致，在合成机器人控制环境的实验中改善了样本效率。

Mar, 2024

多视角强化学习

本文介绍了多视角强化学习（MVRL）模型，通过观察模型来解决决策问题，提出了两种求解方法：观察扩展和跨角度策略转移，实验证明这两种方法在处理多视角环境中具有较好的性能，减少样本复杂度和计算时间。

Oct, 2019

一种融合估计和规划的最大化目标用于探索

本研究提出了一个易于实现的 RL 框架 Maximize to Explore（MEX），它通过最大化一个综合了估计和规划分量的单一目标，在自动平衡探索和利用方面实现了比现有算法更高的采样效率，并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。

May, 2023

基于模型的主动探索

论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索，该算法使用前向模型的集合来规划观察新事件的行为，优化代理行为，通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性，实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级，能够扩展到高维连续环境。

Oct, 2018

合作多智能体强化学习的高效情节记忆利用

通过引入有效的情节记忆利用（EMU）来加速协同多智能体强化学习（MARL），为了减少学习时间并防止局部最优解，EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构，理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。

Mar, 2024

通过最大化视角间相互信息来学习表示

该研究提出了一种基于最大化共享环境的多视角特征提取之间的互信息来进行自我监督表示学习的方法，并通过使用该方法建立一个模型，该模型学习到的图像表示在 ImageNet 等任务上的表现优于以前的方法。

Jun, 2019