基于视觉引导的生成式预训练语言模型进行多模态抽象摘要

EMNLPSep, 2021

基于视觉引导的生成式预训练语言模型进行多模态抽象摘要

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization

Tiezheng Yu, Wenliang Dai, Zihan Liu, Pascale Fung

TL;DR该研究提出了一种有效的方法，使用基于注意力的添加层来整合视觉信息，构建了引导语言模型进行视频摘要的模型，通过模态融合的方法，使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数，其中 83.6% 的提高来自于视觉引导方法，为多模态抽象摘要任务提供了有效的方法。

Abstract

multimodal abstractive summarization (MAS) models that summarize videos (vision modality) and their corresponding transcripts (text modality) are able to extract the essential information from massive multimodal data on the Internet. Recently, large-scale →

multimodal abstractive summarization generative pre-trained language models visual guidance modality fusion video summarization

发现论文，激发创造

视频摘要中适合总结的视觉表现学习

提出一种新方法，利用文本和图像数据中摘要值得特征，并采用大规模生成预训练语言模型生成视频的多模态生成式摘要，相比其他基线方法，我们的方法在三个公共数据集上的表现是最好的。

May, 2023

面向多模态摘要生成的基于摘要导向视觉建模

本文提出通过辅助任务来改善多模态主动摘要中的视觉特征质量，包括视觉到摘要任务和掩蔽图像建模任务，从而优化多模态主动摘要模型。实验结果在 44 种语言中验证了该方法的有效性和优越性。

Dec, 2022

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高 5 倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像 - 文本模型应用于视频 - 语言生成任务。

Oct, 2023

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

预训练模型在多模式标题生成中的嫁接

本文提出了一种新方法，将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上，并通过跨模态和内模态关系的一致性融合机制集成不同组件，以实现多模标题的生成。经过实验证明，嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。

Nov, 2022

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024