为多模态 LLM 自动编码 Morph-Tokens
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
提出了一种新颖的动态语义等价视觉标记器(SeTok)来解决现有视觉标记器的问题,该标记器通过动态聚类算法将视觉特征分组为语义单元,灵活确定标记数目。由此产生的视觉标记能够有效地保持语义完整性,并捕捉低频和高频视觉特征。所提出的具备 SeTok 的多模态大型语言模型(Setokim)在各种任务中显着展现了卓越的性能,如我们的实验结果所证明。
Jun, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
多模态生成技术的调查,介绍了不同领域中的重要进展,包括图像、视频、3D 和音频,研究了方法和数据集,还提出了使用现有生成模型进行人机交互的工具增强型多模态代理,同时探讨了人工智能安全问题和新兴应用及未来前景。
May, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
通过 MKC2 散裝部件集成到 LLMs 中,来存储和分享多模态知识,以增强 LLMs 的推理能力,从而在需要物理或常识知识的上下文中提供竞争性结果。
Nov, 2023
通过引入 SEED 图像标记器,使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
Oct, 2023
通过减少视觉标记并合并相关标记,我们提出了一种自适应的视觉标记压缩方法 PruMerge,可以显著减少可视标记的数量并保持相似的模型性能。
Mar, 2024
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。
Sep, 2023