VideoPoet: 用于零样本视频生成的大型语言模型
本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法,该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记,从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中,我们提出的框架表现出竞争性的性能。
Feb, 2024
本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。在实验中,作者评估了 VideoLLM 在多个任务上的表现,证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索,并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下,我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题,我们引入了多语言多模态预训练策略,并收集了一个新的多语言教学视频数据集(MultiHowTo100M)进行预训练。在 VTT 上的实验表明,我们的方法显著提高了非英语语言的视频搜索效果,而无需额外的注释。此外,当有多语言注释时,我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。
Mar, 2021
本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架,在零样本设置中引入了两个关键改进,提高了视觉 - 语言模型的性能,并在视频理解方面展示了一致的改进。
Oct, 2023
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V,该模型可以通过用户提供的单个抽象提示生成一帧帧的视频,并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性,从而解决了零样本视频生成的挑战。
May, 2023
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。
Dec, 2014
本文提出了一种零样本视频字幕生成方法,采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型,并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。
Jul, 2022
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024