UniCode: 学习用于多模态大型语言模型的统一码书

Mar, 2024

UniCode: 学习用于多模态大型语言模型的统一码书

UniCode: Learning a Unified Codebook for Multimodal Large Language Models

Sipeng Zheng, Bohan Zhou, Yicheng Feng, Ye Wang, Zongqing Lu

TL;DR提出了一种名为 UniCode 的新方法，通过学习统一的码书，能够在多模态的大型语言模型中有效地对视觉、文本和其他类型的信号进行标记化，通过使用语言驱动的迭代训练方法和图像解压缩预训练任务，我们的模型能够解释压缩的视觉数据并生成高质量图像。UniCode 可适应各种堆叠的量化方法，将视觉信号压缩为更紧凑的标记表示。尽管在训练过程中使用的参数和数据少得多，但 UniCode 在视觉重建和生成方面展示出有希望的能力，并在各种 VQA 基准测试中实现了与领先的 MLLM 相当的性能。

Abstract

In this paper, we propose \textbf{unicode}, a novel approach within the domain of multimodal large language models (MLLMs) that learns a unified codebook to efficiently →

unicode multimodal large language models tokenize image decompression visual reconstruction

发现论文，激发创造

UniCoder: 通过通用编码扩展代码大规模语言模型

通过引入中间表示形式 UniCode，用大型语言模型 UniCoder 生成编码，显著提高了生成代码的质量并超越了以往的提示方法。

Jun, 2024

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

UniXcoder：面向代码表示的统一跨模态预训练

本文提出了一种统一的跨模态预训练模型 UniXcoder，使用前缀适配器控制模型行为并使用语法树和代码注释等交叉模态内容来增强代码表示。同时，利用多模态内容进行对比学习以学习代码片段代表，并使用跨模态生成任务在编程语言之间进行表示的对齐。该模型在五个代码相关任务上取得了最先进的结果，而注释和 AST 可以增强该模型。

Mar, 2022

UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩，是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

Aug, 2023

i-Code: 一种集成且可组合的多模态学习框架

该论文提出了一种自我监督的预训练框架 ——i-Code，用户可以将视觉、语音和语言的模态灵活地组合成统一的多用途向量表示，通过融合网络使用新颖的注意机制和其他架构创新来从不同模态中有效地组合信息，实验证明 i-Code 可以优于现有的技术在五个视频理解任务和 GLUE NLP benchmarks 上取得最先进的表现。

May, 2022

UNIMO：通过跨模态对比学习实现统一模态理解和生成

本文介绍了一种名为 UNIMO 的统一单模态预训练架构，它可以有效地适应单模态和多模态理解和生成任务，利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力，并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明，UNIMO 显著改善了几个单模态和多模态下游任务的性能。

Dec, 2020

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023

UNIMO-2: 端到端的统一视觉语言基础学习

本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。

Mar, 2022

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023