通过全局工作区实现强化学习策略的零样本跨模态转移

Mar, 2024

通过全局工作区实现强化学习策略的零样本跨模态转移

Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace

Léopold Maytié, Benjamin Devillers, Alexandre Arnold, Rufin VanRullen

TL;DR通过训练一个基于认知科学的 ' 全局工作空间 '，我们探索了这样一个受大脑启发的多模态表示是否有助于增强强化学习代理的泛化能力及跨模态转移，在两个不同环境和任务中实验结果表明，该模型能够进行零 - shot 跨模态转移，在图像和属性向量之间进行泛化。

Abstract

Humans perceive the world through multiple senses, enabling them to create a comprehensive representation of their surroundings and to generalize information across domains. For instance, when a textual description of a scene is given, humans can mentally visualize it. In fields like robotics and →

multimodal representation global workspace reinforcement learning cross-modal transfer generalization

发现论文，激发创造

全局工作空间下的半监督多模态表示学习

本文提出了一种神经网络体系结构，灵感来源于认知学的 “全球工作区” 的概念，可以通过自监督训练对两种输入方式进行对齐和翻译，并且将全球工作区表示应用于下游分类任务和强大的转移学习。

Jun, 2023

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

多模态强化学习的有效性：模态对齐与重要性增强

提出了一种新的多模态强化学习方法，通过相似性和重要性对不同模态进行多模态对齐和重要性增强，以学习有效的状态表示并改善强化学习过程，实验证明在学习速度和策略质量方面优于现有方法。

Feb, 2023

认知自我：通过机器感知实现可迁移的视觉控制策略

提出了一种基于模型的强化学习策略，通过训练可转移机器人感知的世界动力学模型和机器人特定的动力学模型，从而利用以前在其他机器人上收集的数据来减少对机器人特定数据的需求，并在模拟和实际机器人上实现了视觉控制任务上的零泛化

Jul, 2021

感知、想象、行动：多模态感知改进基于模型的自主竞赛强化学习

该研究提出了一种自监督传感器融合技术，将自身视觉 LiDAR 和 RGB 相机观测数据相结合，应用于模型驱动的强化学习领域，通过提高状态估计来改善其准确性，并在零样本场景下验证了其有效性。

May, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

理解视觉和触觉：学习接触丰富任务的多模态表征

本文提出一种使用自我监督的方法学习机器人多模态的传感输入表示，来提高学习策略的样本效率，以期应对传统方法在在处理未结构化环境下的接触丰富型操作上的局限性。在模拟环境和物理机器人实验中验证了该方法的有效性。

Jul, 2019

MORE-3S：基于多模态的离线强化学习与共享语义空间

利用多模态和预训练语言模型，该论文提出了一种新的方法，将离线强化学习转化为监督学习任务，通过将图像的状态信息与文本中的动作相关数据结合，提高了强化学习的训练性能和长期战略思维，并强调语言的情境理解如何有助于强化学习中的决策制定。实验证明该方法在 Atari 和 OpenAI Gym 环境中优于现有基准方法，提升离线强化学习的性能和效率，同时提供了一种新的离线强化学习视角。

Feb, 2024

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018