TEAL: 多模态大型语言模型的令牌化和嵌入全部

Nov, 2023

TEAL: 多模态大型语言模型的令牌化和嵌入全部

TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

Zhen Yang, Yingxue Zhang, Fandong Meng, Jie Zhou

TL;DR使用 TEAL 方法，将来自任何模态的输入处理为一个记号序列，学习所有模态的联合嵌入空间，并通过联合嵌入空间使得多模态的大型语言模型能够在涉及非文本模态的理解和生成任务中执行，如图像和音频。

Abstract

Despite multi-modal large language models (MM-LLMs) have made exciting strides recently, they are still struggling to efficiently model the interactions among multi-modal inputs and the generation in non-textual modalities. In this work, we propose →

multi-modal large language models teal token sequence joint embedding space multi-modal understanding

发现论文，激发创造

多模式生成嵌入模型

多模态生成嵌入模型能够同时处理多模态任务，在效率上具有竞争力，具备良好的图像标题生成和文本图像检索能力。

May, 2024

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

基于文本的多模态学习对齐

该研究论文针对多模态学习中的模态不匹配问题，提出了一种创新方法，即文本为中心的多模态学习对齐（TAMML）方法。通过利用文本的独特特性作为统一的语义空间，TAMML 在处理未见过的、多样化的和不可预测的模态组合时取得了显著改进。TAMML 不仅适应不同的模态，还保持了强大的性能，展示了基于基本模型的潜力，克服了传统固定模态框架中嵌入表示的局限性。该研究为领域做出了贡献，为模态可用性动态和不确定性的实际应用提供了灵活有效的解决方案。

Feb, 2024

用 SEED 令牌化器使 LLaMA 具备视觉和绘图能力

通过引入 SEED 图像标记器，使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归，并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。

Oct, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

将 LLMs 转化为跨模态和跨语言检索系统

使用大型语言模型进行多模态双编码检索系统，能够在多种语言中匹配语音和文本，提升召回率并实现跨语言匹配。

Apr, 2024

基于预训练嵌入的多语言和多模态主题建模

本文介绍了一种新颖的多模态多语言（M3L）神经话题模型 M3L-Contrast，用于可比较数据，将多种语言和图像映射到共享的话题空间中，该模型利用预训练的文本和图像嵌入，抽象不同语言和模态之间的复杂性，并产生对齐的语言特定话题。同时，该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当，且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时，我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。

Nov, 2022

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

语言模型是通用嵌入器

大语言模型（LLM）革命中，嵌入是各种系统的关键组成部分。在本文中，我们迈出了迈向构建强大统一的嵌入模型的第一步，证明了多种语言（自然语言和编程语言）的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估，结果表明这是一条有希望的道路，可以应用于不同任务和语言。

Oct, 2023