COSA: 连接样本预训练的视觉 - 语言基础模型

Jun, 2023

COSA: 连接样本预训练的视觉 - 语言基础模型

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng...

TL;DR本研究提出了 COSA，一种 COncatenated SAmple 预训练视觉语言基础模型，它通过仅使用图像 - 文本语料库，联合建模视觉内容和事件级时间线索，使现有的图像 - 文本语料库转化为一种伪长篇视频 - 段落语料库，并在包括检索、字幕和问题解答在内的广泛下游任务中一致提高表现，达到了各种竞争基准的最新效果。

Abstract

Due to the limited scale and quality of video-text training corpus, most vision-language foundation models employ image-text datasets for pretraining and primarily focus on modeling visually semantic representati

vision-language pretraining temporal cues video-text tasks state-of-the-art

发现论文，激发创造

COSMO：简化的对比多模态流模型与交错预训练

在视觉语言预训练的演变过程中，从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中，本文提出了一种结合对比学习和多模态处理的统一框架 (ModelName)，在涉及文本和视觉数据的任务中，显著提高模型性能，同时降低学习参数。此外，本文介绍了一个首个交叉视频 - 文本数据集 (VideoDatasetName)，通过全面的字幕，进一步增强模型在图像 - 文本任务中的性能。

Jan, 2024

CoCa: 对比式字幕生成模型是图像文本基础模型

本文介绍了一种名为 CoCa 的对比式注解器，它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是，在解码器的前半段中省略跨关注，以编码单模态文本表示形式，并级联其余解码器层，以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练，并在各种视觉任务上实现了最先进的性能。

May, 2022

Oscar: 面向视觉语言任务的对象 - 语义对齐预训练模型

本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar，通过使用在图像中检测到的目标标签作为锚点，显著简化模型中的图像与文本的语义对齐，使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。

Apr, 2020

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

VideoOFA: 为视频到文本生成进行的两阶段预训练

该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题，称为 VideoOFA 模型，在大规模图像 - 文本数据上预先训练表示学习，然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能，这使得该模型在四个视频描述基准测试中实现了新的最优表现，并在两个开放式的视频问答数据集上优于现有模型，展示了其作为通用视频 - 文本模型的泛化能力。

May, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022