预训练模型在多模式标题生成中的嫁接

EMNLPNov, 2022

预训练模型在多模式标题生成中的嫁接

Grafting Pre-trained Models for Multimodal Headline Generation

Lingfeng Qiao, Chen Wu, Ye Liu, Haoyuan Peng, Di Yin...

TL;DR本文提出了一种新方法，将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上，并通过跨模态和内模态关系的一致性融合机制集成不同组件，以实现多模标题的生成。经过实验证明，嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。

Abstract

multimodal headline utilizes both video frames and transcripts to generate the natural language title of the videos. Due to a lack of large-scale, manually annotated data, the task of annotating grounded headlines for video is labor intensive and impractical. Previous researches on pre

multimodal headline pre-trained language models video-language models modality balance consensus fusion mechanism

发现论文，激发创造

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

利用预训练语言模型嫁接的多语言翻译

本文提出了 Graformer 模型，将预训练的 BERT 和 GPT 结合起来，分别作为编码器和解码器用于机器翻译，得到了比同等规模的多语言 Transformer 更好的翻译结果。

Sep, 2021

基于视觉引导的生成式预训练语言模型进行多模态抽象摘要

该研究提出了一种有效的方法，使用基于注意力的添加层来整合视觉信息，构建了引导语言模型进行视频摘要的模型，通过模态融合的方法，使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数，其中 83.6% 的提高来自于视觉引导方法，为多模态抽象摘要任务提供了有效的方法。

Sep, 2021

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021