理解视觉和触觉：学习接触丰富任务的多模态表征

Jul, 2019

理解视觉和触觉：学习接触丰富任务的多模态表征

Making Sense of Vision and Touch: Learning Multimodal Representations for Contact-Rich Tasks

Michelle A. Lee, Yuke Zhu, Peter Zachares, Matthew Tan, Krishnan Srinivasan...

TL;DR本文提出一种使用自我监督的方法学习机器人多模态的传感输入表示，来提高学习策略的样本效率，以期应对传统方法在在处理未结构化环境下的接触丰富型操作上的局限性。在模拟环境和物理机器人实验中验证了该方法的有效性。

Abstract

Contact-rich manipulation tasks in unstructured environments often require both haptic and visual feedback. It is non-trivial to manually design a robot controller that combines these modalities which have very different characteristics. While →

haptic feedback visual feedback deep reinforcement learning self-supervision sample efficiency

发现论文，激发创造

视觉与触觉的整合：自监督学习的多模态接触任务表示

本文使用自我监督的方式学习了一种紧凑的多模态表示方法，将触觉和视觉反馈结合起来，以改善高维输入控制策略的样本效率，该方法在模拟和实际机器人实验中均表现出鲁棒性和广泛泛化能力。

Oct, 2018

感觉的力量：通过遮蔽式多模态学习从视觉和触觉中获得的通用操控

利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习（M3L）方法提高样本效率，并超越单个感官的泛化能力。

Nov, 2023

多模态视觉触觉表示学习通过自监督对比预训练

通过利用对比学习的方法，本文介绍了 MViTac，一种将视觉和触觉感知以自我监督的方式整合的新方法，通过使用这两种传感器输入，MViTac 利用内部和跨模态损失进行表示学习，从而实现了更好的材料属性分类和更精确的抓取预测。实验证明了 MViTac 方法的有效性及其对现有最先进的自监督和有监督技术的优势。

Jan, 2024

视觉和触觉的三维形状重建

本文研究 3D 形状重建中视觉和触觉信息的多模式融合问题，并提出了一种基于图表的方法，该方法有助于提高重建质量，并且通过一个机器人手与 3D 物体的交互生成了一个仿真数据集。结果表明，利用视觉与触觉信号可以显著改善基准单一模态的重建表现，本方法优于替代模态融合方法并受益于所提出的基于图表的结构。

Jul, 2020

使用多模态深度强化学习训练交互式人形机器人

通过让人形机器人玩井字棋的学习方法，成功探索了多模态深度强化学习、机器人视觉感知和交互等方向，并利用语音、视觉和手势等方式让机器人在该游戏中实现了高效而自然的交互。

Nov, 2016

MimicTouch: 学习人类的多模态触觉反馈控制策略

机器人和人工智能领域中，触觉处理的整合越来越关键，特别是在学习如对齿轮和插入等复杂任务时。然而，现有的关于插入任务的触觉方法的研究主要依赖机器人远程操作数据和强化学习，并没有充分利用人类在触觉反馈指导下的控制策略所提供的丰富见解。为了利用人类的感知，与学习源自人类的方法相比，方法学上主要利用视觉反馈，常常忽视人类在完成复杂操纵时固有地使用的宝贵触觉反馈。为填补这一差距，我们引入了一种名为 “MimicTouch” 的新框架，该框架模仿人类的触觉引导控制策略。在这个框架中，我们首先从人类示范者那里收集多模态触觉数据集，将人类的触觉引导控制策略融入到任务完成中。其后的步骤涉及使用多模态传感器数据和重新定位的人类动作通过模仿学习指导机器人。为了进一步缩小人类与机器人之间的差距，我们在物理机器人上采用在线剩余强化学习。通过全面的实验证明，在从人类到机器人的过程中，MimicTouch 的潜在策略通过模仿学习的方式转移是安全和可行的。这项正在进行的工作将为更广泛的触觉引导机器人应用铺平道路。

Oct, 2023

多模态感知中基于生成模型的软体机器人交互

该研究介绍了一个感知模型，通过协调来自不同模态的数据，构建一个完整的状态表示和吸收必要的信息，从而为开发复杂的控制策略铺平了道路。该模型基于感知输入和机器人动作之间的因果关系，采用生成模型来高效压缩融合信息并预测下一个观察值。我们首次提出了关于如何从视觉和本体感知预测触觉以及跨模态生成的研究，以及这对于软体机器人在非结构化环境中的交互的重要性。

Apr, 2024

基于端到端演示学习的基于视觉的廉价机器人多任务操作

以多任务学习为基础，提出一种通过演示学习从而训练低成本机械臂控制器，以便完成数个拾取放置任务及非预抓取式操控操作的技术，使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器，参数在任务之间共享；同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明，可以通过行为克隆直接从原始图像中学习复杂的操纵任务，例如拾起毛巾、擦拭物体并将毛巾放回原位等，权重共享和基于重构的正则化大大提高了泛化性和鲁棒性，同时同时训练多个任务能够增加所有任务的成功率。

Jul, 2017

M2CURL: 机器人操作的自主监督表征学习实现高效的多模态强化学习

提出了一种名为 M2CURL 的多模态对比无监督强化学习方法，该方法可以有效整合不同的观察模态，通过学习高效的表征进而提高强化学习算法的稳健性和样本效率。该方法在触觉模拟环境中得到了验证，相较于标准的强化学习算法，其学习效率显著提高，表现为更快的收敛速度和更高的累积奖励。

Jan, 2024

机器人共感：视触感知下的手部操纵

使用视觉和触觉感知输入实现灵巧的手中操作是一项具有挑战性的任务，本文提出了一种基于点云的触觉表示方法 Robot Synesthesia，该方法通过同时无缝地整合视觉和触觉输入，提供更丰富的空间信息，有助于更好地推理机器人动作，通过在模拟环境中训练并应用于真实机器人，可适用于各种手中物体旋转任务，并通过综合消融实验验证了视觉和触觉的整合如何改善强化学习和实验到真实场景的性能。

Dec, 2023