走向全面多模感知：引入触觉 - 语言 - 视觉数据集

Mar, 2024

走向全面多模感知：引入触觉 - 语言 - 视觉数据集

Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset

Ning Cheng, You Li, Jing Gao, Bin Fang, Jinan Xu...

TL;DR通过人机级联协作构建了一个名为 TLV（触觉 - 语言 - 视觉）的触觉 - 语言 - 视觉数据集，其中包含用于多模态对齐的句级描述。利用该新数据集，使用我们提出的轻量级训练框架 TLV-Link（通过对齐链接触觉、语言和视觉）进行微小参数调整（1%）实现了有效的语义对齐。

Abstract

tactility provides crucial support and enhancement for the perception and interaction capabilities of both humans and robots. Nevertheless

tactility perception interaction touch-language-vision dataset semantic alignment

发现论文，激发创造

多模态对齐的触觉、视觉和语言数据集

本研究引入了一个新的数据集，包含了 4.4 万个自然语言标注的视触觉对，通过使用该数据集训练了视触觉语言联合模型，并在新的视触觉理解基准测试中展现了对比于 GPT-4V 和开源视觉语言模型的改进（+12% 和 + 32%）。

Feb, 2024

通过跨模态预测连接触觉和视觉

本文通过在机器人装备视觉和触觉传感器，收集大规模视觉和触觉图像序列数据，使用条件对抗式模型，实现视觉和触觉的交叉连接，来合成视觉数据和触觉信号，并想象人与物体的互动。

Jun, 2019

将触觉与一切相连：学习统一的多模态触觉表征

通过与预训练的图像嵌入相关联，UniTouch 统一了视觉为基础的触觉传感器与其他多种模态之间的关系，并引入了可学习的传感器特定标记，使模型能够同时从一组异构触觉传感器学习，从而在零样本设置下进行各种触觉感知任务。UniTouch 是第一个展示此类能力的模型。

Jan, 2024

Touching to See” and “Seeing to Feel”: 用于视觉触觉知觉的机器人跨模态感官数据生成

本文提出了一种新的框架，利用条件生成对抗网络生成视觉或触觉图像，以实现视觉和触觉知觉的跨模态感知，并在 ViTac 数据集上进行了广泛实验，结果表明该方法能够生成逼真的数据并且有潜力扩大分类任务的数据集，生成不易获取的感官输出，并推进视觉 - 触觉知觉的整合。

Feb, 2019

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

多模态视觉触觉表示学习通过自监督对比预训练

通过利用对比学习的方法，本文介绍了 MViTac，一种将视觉和触觉感知以自我监督的方式整合的新方法，通过使用这两种传感器输入，MViTac 利用内部和跨模态损失进行表示学习，从而实现了更好的材料属性分类和更精确的抓取预测。实验证明了 MViTac 方法的有效性及其对现有最先进的自监督和有监督技术的优势。

Jan, 2024

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

ViTac: 视觉和触觉感知之间的特征共享，用于布料纹理识别

本文提出了一种新的融合方法，称为 Deep Maximum Covariance Analysis (DMCA)，用于学习一个共享视觉和触觉信息的联合潜在空间，通过图像和触觉感知实现纹理识别，结果表明使用该方法可以实现超过 90% 的良好识别性能。

Feb, 2018

视觉与语言研究中当前数据集的调查

本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Jun, 2015

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024