通过跨模态预测连接触觉和视觉

CVPRJun, 2019

Connecting Touch and Vision via Cross-Modal Prediction

Yunzhu Li, Jun-Yan Zhu, Russ Tedrake, Antonio Torralba

TL;DR本文通过在机器人装备视觉和触觉传感器，收集大规模视觉和触觉图像序列数据，使用条件对抗式模型，实现视觉和触觉的交叉连接，来合成视觉数据和触觉信号，并想象人与物体的互动。

Abstract

Humans perceive the world using multi-modal sensory inputs such as vision, audition, and touch. In this work, we investigate the cross-modal conn

vision touch cross-modal connection conditional adversarial model robotics

发现论文，激发创造

Touching to See” and “Seeing to Feel”: 用于视觉触觉知觉的机器人跨模态感官数据生成

本文提出了一种新的框架，利用条件生成对抗网络生成视觉或触觉图像，以实现视觉和触觉知觉的跨模态感知，并在 ViTac 数据集上进行了广泛实验，结果表明该方法能够生成逼真的数据并且有潜力扩大分类任务的数据集，生成不易获取的感官输出，并推进视觉 - 触觉知觉的整合。

Feb, 2019

视觉和触觉的三维形状重建

本文研究 3D 形状重建中视觉和触觉信息的多模式融合问题，并提出了一种基于图表的方法，该方法有助于提高重建质量，并且通过一个机器人手与 3D 物体的交互生成了一个仿真数据集。结果表明，利用视觉与触觉信号可以显著改善基准单一模态的重建表现，本方法优于替代模态融合方法并受益于所提出的基于图表的结构。

Jul, 2020

结合视觉和触觉感知进行视频预测

本论文探究将触觉感应应用于物理机器人相互作用的视频预测模型，结果表明增加触觉反馈有助于提高场景预测准确性和增强机器人在物理相互作用过程中的感知和理解能力。

Apr, 2023

从触觉生成视觉场景

通过最新的潜在扩散技术，我们提出了一种从触觉信号合成图像的模型，并在多个视觉触觉合成任务中取得了显著的优势，包括所谓的触觉驱动风格化问题以及从触觉生成图像而无需其他信息源的首创性研究。

Sep, 2023

走向全面多模感知：引入触觉 - 语言 - 视觉数据集

通过人机级联协作构建了一个名为 TLV（触觉 - 语言 - 视觉）的触觉 - 语言 - 视觉数据集，其中包含用于多模态对齐的句级描述。利用该新数据集，使用我们提出的轻量级训练框架 TLV-Link（通过对齐链接触觉、语言和视觉）进行微小参数调整（1%）实现了有效的语义对齐。

Mar, 2024

多模态对齐的触觉、视觉和语言数据集

本研究引入了一个新的数据集，包含了 4.4 万个自然语言标注的视触觉对，通过使用该数据集训练了视触觉语言联合模型，并在新的视触觉理解基准测试中展现了对比于 GPT-4V 和开源视觉语言模型的改进（+12% 和 + 32%）。

Feb, 2024

多模态生成模型学习直觉物理学

本文提出了一种感知框架，通过融合视觉和触觉反馈来预测动态场景中物体的运动，该框架利用一种新型的 STS 传感器来捕捉物体的视觉外观和触觉特性，利用多模态 VAE 将两种模态结合起来，可以推断未来物理交互的结果。

Jan, 2021

机器人共感：视触感知下的手部操纵

使用视觉和触觉感知输入实现灵巧的手中操作是一项具有挑战性的任务，本文提出了一种基于点云的触觉表示方法 Robot Synesthesia，该方法通过同时无缝地整合视觉和触觉输入，提供更丰富的空间信息，有助于更好地推理机器人动作，通过在模拟环境中训练并应用于真实机器人，可适用于各种手中物体旋转任务，并通过综合消融实验验证了视觉和触觉的整合如何改善强化学习和实验到真实场景的性能。

Dec, 2023

感觉的力量：通过遮蔽式多模态学习从视觉和触觉中获得的通用操控

利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习（M3L）方法提高样本效率，并超越单个感官的泛化能力。

Nov, 2023

可控视觉触觉合成

本研究使用深度生成模型创建一个多感官体验，用户可以在触觉表面上滑动手指，触摸和查看合成物体，并提出了一种新的视触觉服装数据集和条件生成模型以合成视觉和触觉输出，并介绍了一个流水线，在基于电除尘的触觉设备上呈现高质量的视觉和触觉输出，实现沉浸式体验。

May, 2023