UniBind: 统一与平衡的 LLM 增强表示空间以绑定所有

CVPRMar, 2024

UniBind: 统一与平衡的 LLM 增强表示空间以绑定所有

UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All

Yuanhuiyi Lyu, Xu Zheng, Jiazhou Zhou, Lin Wang

TL;DRUniBind 是一种灵活高效的方法，利用大型语言模型（LLMs）学习统一的表示空间，用于处理多模态数据，实现零样本识别并在多模态微调中取得新的最先进性能。

Abstract

We present unibind, a flexible and efficient approach that learns a unified representation space for seven diverse modalities-- images, text, audio, point cloud, thermal, video, and event data. Existing works, eg

unibind representation space multi-modal data large language models zero-shot recognition

发现论文，激发创造

ImageBind: 一个绑定所有嵌入空间的嵌入空间

ImageBind 是一种学习跨六种不同类型数据（图像、文本、音频、深度、热成像和 IMU 数据）联合嵌入的方法，只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用，而且表现出强大的零样本和有限样本识别能力，能够评估视觉模型的性能。

May, 2023

ImageBind-LLM：多模态指令调整

我们提出了 ImageBind-LLM，一种通过 ImageBind 进行大型语言模型（LLM）的多模态指令调优方法。我们的方法可以响应多模态条件，包括音频、三维点云、视频以及它们的嵌入空间算术，仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力，并具有显著的语言生成质量。

Sep, 2023

LLMBind: 一个统一的模态 - 任务集成框架

提出 LLMBind 框架，结合大型语言模型和预训练任务模型，实现多模态任务的综合集成，通过多领域专家的协作学习来处理各种多模态任务，展示了创建统一 AI 代理模型通用模态的潜力。

Feb, 2024

点绑定与点 LLM：用于三维理解、生成和指令跟随的点云多模态对齐

我们引入了 Point-Bind，这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过 ImageBind 的引导，我们构建了三维和多模态之间的联合嵌入空间，实现了许多有前景的应用，例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外，我们还提出了 Point-LLM，这是第一个遵循三维多模态指令的三维大型语言模型（LLM）。通过参数高效的微调技术，Point-LLM 将 Point-Bind 的语义注入到预训练的 LLM 中，例如 LLaMA，它不需要三维指令数据，但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。

Sep, 2023

OmniBind: 教授建立不等比例模态互动以实现全方位绑定

通过提出 OmniBind 框架，该研究解决了多模态学习中训练和推理阶段模态组合不匹配和尺度不均衡的问题，通过跨模态对齐蒸馏和自适应融合模块，实现了任意模态组合和统一表示空间的学习，具有较高的性能提升。

May, 2024

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

语言绑定：通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

我们提出了一种称为 LanguageBind 的方法，通过冻结 VL 预训练得到的语言编码器，然后使用对比学习训练其他多模态编码器，实现多模态语义对齐，同时我们还提出了 VIDAL-10M 数据集用于此目的，经过在该数据集上的预训练，我们在零样本视频文本检索方面优于 ImageBind 1.2％ R@1，并且在零样本视频，音频，深度和红外理解任务方面也取得了显著改进。

Oct, 2023

MolBind：语言、分子和蛋白质的多模态对齐

生物学和化学领域的最新进展已经利用多模态学习，将分子及其自然语言描述整合到药物发现中。然而，当前的预训练框架局限于两种模态，并且设计一个能够处理不同模态（如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质）的统一网络仍具有挑战性。在这项工作中，我们提出了 MolBind，这是一个通过对比学习训练多模态编码器的框架，将所有模态映射到共享特征空间以实现多模态语义对齐。为了促进 MolBind 在多模态上的有效预训练，我们还构建了一个包含图 - 语言、构象 - 语言、图 - 构象和构象 - 蛋白质配对数据的高质量数据集，即 MolBind-M4。MolBind 在广泛任务上展示了优越的零样本学习性能，表明它能够很好地捕捉多种模态的潜在语义。

Mar, 2024

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023