多模态生成模型学习直觉物理学

AAAIJan, 2021

Learning Intuitive Physics with Multimodal Generative Models

Sahand Rezaei-Shoshtari, Francois Robert Hogan, Michael Jenkin, David Meger, Gregory Dudek

TL;DR本文提出了一种感知框架，通过融合视觉和触觉反馈来预测动态场景中物体的运动，该框架利用一种新型的 STS 传感器来捕捉物体的视觉外观和触觉特性，利用多模态 VAE 将两种模态结合起来，可以推断未来物理交互的结果。

Abstract

Predicting the future interaction of objects when they come into contact with their environment is key for autonomous agents to take intelligent and anticipatory actions. This paper presents a perception framework that fuses visual and →

perception framework visual feedback tactile feedback multimodal sensing future physical interactions

发现论文，激发创造

结合视觉和触觉感知进行视频预测

本论文探究将触觉感应应用于物理机器人相互作用的视频预测模型，结果表明增加触觉反馈有助于提高场景预测准确性和增强机器人在物理相互作用过程中的感知和理解能力。

Apr, 2023

Touching to See” and “Seeing to Feel”: 用于视觉触觉知觉的机器人跨模态感官数据生成

本文提出了一种新的框架，利用条件生成对抗网络生成视觉或触觉图像，以实现视觉和触觉知觉的跨模态感知，并在 ViTac 数据集上进行了广泛实验，结果表明该方法能够生成逼真的数据并且有潜力扩大分类任务的数据集，生成不易获取的感官输出，并推进视觉 - 触觉知觉的整合。

Feb, 2019

基于 LSTM 的触感和动觉信息对象识别的贝叶斯和神经推理

本研究提出了一种基于多模态对象识别的分析和数据驱动的方法，利用具有高分辨率触觉传感器的三指驱动夹爪进行压缩和释放探索过程（EPs），采集手指关节上的角度传感器获取触觉图像和动觉信息，然后，利用 LSTM 神经网络进行分类，最后通过贝叶斯和神经推理方法融合，对 36 种物体进行测试，结果表明贝叶斯分类器提高了物体识别能力并优于神经网络分类器。

Jun, 2023

多模态感知中基于生成模型的软体机器人交互

该研究介绍了一个感知模型，通过协调来自不同模态的数据，构建一个完整的状态表示和吸收必要的信息，从而为开发复杂的控制策略铺平了道路。该模型基于感知输入和机器人动作之间的因果关系，采用生成模型来高效压缩融合信息并预测下一个观察值。我们首次提出了关于如何从视觉和本体感知预测触觉以及跨模态生成的研究，以及这对于软体机器人在非结构化环境中的交互的重要性。

Apr, 2024

通过跨模态预测连接触觉和视觉

本文通过在机器人装备视觉和触觉传感器，收集大规模视觉和触觉图像序列数据，使用条件对抗式模型，实现视觉和触觉的交叉连接，来合成视觉数据和触觉信号，并想象人与物体的互动。

Jun, 2019

透过皮肤看世界：利用新型视触感传感器识别物体

本文介绍一种新的基于视觉的传感器，并结合高分辨率触觉发射，以统一的硬件和计算体系结构进行处理；该传感器在多模式物体识别和计量方面表现出良好效果，并且在触觉和视觉领域上具有重要的物理含义，数据验证了其能力可以从深度学习视觉和触觉结合的角度对家庭物品进行分类，识别细节纹理并推断其物理属性。

Nov, 2020

感觉的力量：通过遮蔽式多模态学习从视觉和触觉中获得的通用操控

利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习（M3L）方法提高样本效率，并超越单个感官的泛化能力。

Nov, 2023

将其推至示范极限：多模态视触力仿真学习与力匹配

研究了视触觉感知与模仿学习相结合在接触丰富的操作任务中的作用，利用光学触觉传感器和创新算法收集触觉力量数据，并通过可视 / 触觉模式切换简化传感器的应用，实验结果强调触觉感知在模仿学习中的重要性。

Nov, 2023

可控视觉触觉合成

本研究使用深度生成模型创建一个多感官体验，用户可以在触觉表面上滑动手指，触摸和查看合成物体，并提出了一种新的视触觉服装数据集和条件生成模型以合成视觉和触觉输出，并介绍了一个流水线，在基于电除尘的触觉设备上呈现高质量的视觉和触觉输出，实现沉浸式体验。

May, 2023

多模态视觉触觉表示学习通过自监督对比预训练

通过利用对比学习的方法，本文介绍了 MViTac，一种将视觉和触觉感知以自我监督的方式整合的新方法，通过使用这两种传感器输入，MViTac 利用内部和跨模态损失进行表示学习，从而实现了更好的材料属性分类和更精确的抓取预测。实验证明了 MViTac 方法的有效性及其对现有最先进的自监督和有监督技术的优势。

Jan, 2024