Mar, 2024

走向全面多模感知:引入触觉 - 语言 - 视觉数据集

TL;DR通过人机级联协作构建了一个名为 TLV(触觉 - 语言 - 视觉)的触觉 - 语言 - 视觉数据集,其中包含用于多模态对齐的句级描述。利用该新数据集,使用我们提出的轻量级训练框架 TLV-Link(通过对齐链接触觉、语言和视觉)进行微小参数调整(1%)实现了有效的语义对齐。