通过全局工作区实现强化学习策略的零样本跨模态转移
本文提出了一种神经网络体系结构,灵感来源于认知学的 “全球工作区” 的概念,可以通过自监督训练对两种输入方式进行对齐和翻译,并且将全球工作区表示应用于下游分类任务和强大的转移学习。
Jun, 2023
通过引入多模态基础世界模型,GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐,从而克服了现有基础视觉语言模型在不同领域上的问题,并在多个运动和操作领域展现了强大的多任务泛化性能。此外,通过引入无数据强化学习策略,还为通用性的综合模型基于强化学习的全能代理奠定了基础。
Jun, 2024
本研究主要关注于如何使用深度增强学习的方法,通过神经网络策略来训练机器人获取新的技能。同时,通过迁移学习,可以实现技能和机器人之间的信息共享,从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。
Sep, 2016
提出了一种新的多模态强化学习方法,通过相似性和重要性对不同模态进行多模态对齐和重要性增强,以学习有效的状态表示并改善强化学习过程,实验证明在学习速度和策略质量方面优于现有方法。
Feb, 2023
提出了一种基于模型的强化学习策略,通过训练可转移机器人感知的世界动力学模型和机器人特定的动力学模型,从而利用以前在其他机器人上收集的数据来减少对机器人特定数据的需求,并在模拟和实际机器人上实现了视觉控制任务上的零泛化
Jul, 2021
该研究提出了一种自监督传感器融合技术,将自身视觉 LiDAR 和 RGB 相机观测数据相结合,应用于模型驱动的强化学习领域,通过提高状态估计来改善其准确性,并在零样本场景下验证了其有效性。
May, 2023
通过利用背景世界知识,人类能够快速学习新的行为方式。相比之下,强化学习训练的代理通常需要从零开始学习行为。因此,我们提出了一种新的方法,利用基于视觉语言模型(VLMs)的通用世界知识和可索引知识,这些模型在互联网规模的数据上进行预训练,用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略:通过提示提供任务背景和辅助信息,这些嵌入基于视觉观察进行了接地,并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现,与从通用的非可提示图像嵌入训练的等效策略相比,我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现,我们的方法优于遵循指令的方法,并与特定领域的嵌入方法效果相当。
Feb, 2024
本文提出一种使用自我监督的方法学习机器人多模态的传感输入表示,来提高学习策略的样本效率,以期应对传统方法在在处理未结构化环境下的接触丰富型操作上的局限性。在模拟环境和物理机器人实验中验证了该方法的有效性。
Jul, 2019
利用多模态和预训练语言模型,该论文提出了一种新的方法,将离线强化学习转化为监督学习任务,通过将图像的状态信息与文本中的动作相关数据结合,提高了强化学习的训练性能和长期战略思维,并强调语言的情境理解如何有助于强化学习中的决策制定。实验证明该方法在 Atari 和 OpenAI Gym 环境中优于现有基准方法,提升离线强化学习的性能和效率,同时提供了一种新的离线强化学习视角。
Feb, 2024