TEAL: 多模态大型语言模型的令牌化和嵌入全部
引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。
Jan, 2024
该研究论文针对多模态学习中的模态不匹配问题,提出了一种创新方法,即文本为中心的多模态学习对齐(TAMML)方法。通过利用文本的独特特性作为统一的语义空间,TAMML 在处理未见过的、多样化的和不可预测的模态组合时取得了显著改进。TAMML 不仅适应不同的模态,还保持了强大的性能,展示了基于基本模型的潜力,克服了传统固定模态框架中嵌入表示的局限性。该研究为领域做出了贡献,为模态可用性动态和不确定性的实际应用提供了灵活有效的解决方案。
Feb, 2024
通过引入 SEED 图像标记器,使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
Oct, 2023
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本文介绍了一种新颖的多模态多语言(M3L)神经话题模型 M3L-Contrast,用于可比较数据,将多种语言和图像映射到共享的话题空间中,该模型利用预训练的文本和图像嵌入,抽象不同语言和模态之间的复杂性,并产生对齐的语言特定话题。同时,该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当,且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时,我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。
Nov, 2022
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023