AAAIJan, 2021

多模态生成模型学习直觉物理学

TL;DR本文提出了一种感知框架,通过融合视觉和触觉反馈来预测动态场景中物体的运动,该框架利用一种新型的 STS 传感器来捕捉物体的视觉外观和触觉特性,利用多模态 VAE 将两种模态结合起来,可以推断未来物理交互的结果。