ImageBind-LLM：多模态指令调整

Sep, 2023

ImageBind-LLM: Multi-modality Instruction Tuning

Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu...

TL;DR我们提出了 ImageBind-LLM，一种通过 ImageBind 进行大型语言模型（LLM）的多模态指令调优方法。我们的方法可以响应多模态条件，包括音频、三维点云、视频以及它们的嵌入空间算术，仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力，并具有显著的语言生成质量。

Abstract

We present imagebind-llm, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our

imagebind-llm multi-modality instruction tuning embedding-space arithmetic visual instructions cross-modal embedding enhancement

发现论文，激发创造

点绑定与点 LLM：用于三维理解、生成和指令跟随的点云多模态对齐

我们引入了 Point-Bind，这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过 ImageBind 的引导，我们构建了三维和多模态之间的联合嵌入空间，实现了许多有前景的应用，例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外，我们还提出了 Point-LLM，这是第一个遵循三维多模态指令的三维大型语言模型（LLM）。通过参数高效的微调技术，Point-LLM 将 Point-Bind 的语义注入到预训练的 LLM 中，例如 LLaMA，它不需要三维指令数据，但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。

Sep, 2023

LLMBind: 一个统一的模态 - 任务集成框架

提出 LLMBind 框架，结合大型语言模型和预训练任务模型，实现多模态任务的综合集成，通过多领域专家的协作学习来处理各种多模态任务，展示了创建统一 AI 代理模型通用模态的潜力。

Feb, 2024

UniBind: 统一与平衡的 LLM 增强表示空间以绑定所有

UniBind 是一种灵活高效的方法，利用大型语言模型（LLMs）学习统一的表示空间，用于处理多模态数据，实现零样本识别并在多模态微调中取得新的最先进性能。

Mar, 2024

ImageBind: 一个绑定所有嵌入空间的嵌入空间

ImageBind 是一种学习跨六种不同类型数据（图像、文本、音频、深度、热成像和 IMU 数据）联合嵌入的方法，只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用，而且表现出强大的零样本和有限样本识别能力，能够评估视觉模型的性能。

May, 2023

语言绑定：通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

我们提出了一种称为 LanguageBind 的方法，通过冻结 VL 预训练得到的语言编码器，然后使用对比学习训练其他多模态编码器，实现多模态语义对齐，同时我们还提出了 VIDAL-10M 数据集用于此目的，经过在该数据集上的预训练，我们在零样本视频文本检索方面优于 ImageBind 1.2％ R@1，并且在零样本视频，音频，深度和红外理解任务方面也取得了显著改进。

Oct, 2023

多轮交替多模态指令跟随

介绍了 TextBind，这是一个几乎无需标注的框架，可以为较大的语言模型赋予多轮交错的多模态指令跟随能力，通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话，从而旨在推动多模态指令跟随领域的未来研究。

Sep, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024