序列建模为大型视觉模型实现可扩展学习

Dec, 2023

序列建模为大型视觉模型实现可扩展学习

Sequential Modeling Enables Scalable Learning for Large Vision Models

Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille...

TL;DR我们引入了一种新颖的顺序建模方法，可以学习大规模视觉模型（LVM）而无需使用任何语言数据。通过将原始图像、视频以及注解数据源转化为 “视觉句子” 的公共格式，我们可以表示各种视觉数据，并通过训练模型来解决多个视觉任务。

Abstract

We introduce a novel sequential modeling approach which enables learning a large vision model (LVM) without making use of any linguistic data. To do this, we define a common format, "→

sequential modeling large vision model visual sentences visual data visual prompts

发现论文，激发创造

为实际手动任务生成连贯的视觉插图序列

通过将潜在扩散模型与大型语言模型结合，我们提出了一种生成一致图像序列的方法，用于配合多步骤的指南，并在人类参与实验中被 46.6% 的人选择为最佳方法，同时自动评价指标表明该方法在两个领域中能够维持语义连贯性和视觉一致性。

May, 2024

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

非自回归序列到序列视觉语言模型

通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型（NARVL），不再限制为条件分布，能够建模多个推断路径的联合分布，从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模型相当的性能提升，并且速度更快。

Mar, 2024

通过顺序自回归打造数据高效的大型视觉模型

该论文研究了一种高效的基于自回归的视觉模型，通过有限的数据集在测试阶段展示了其在高层次和低层次语义理解等各种视觉任务上的能力，减少了参数占用以及训练数据要求，为通用视觉模型领域的可持续性和可访问性提供了重要进展。

Feb, 2024

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024