以视频为新语言进行现实世界决策

Feb, 2024

以视频为新语言进行现实世界决策

Video as the New Language for Real-World Decision Making

Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce...

TL;DR通过视频生成模型，利用视频数据解决现实世界中的任务是一个被低估的机会，可以在机器人、自动驾驶和科学等领域产生重大影响，但需要解决视频生成中的关键挑战。

Abstract

Both text and video data are abundant on the internet and support large-scale self-supervised learning through next token or frame prediction. However, they have not been equally leveraged: language models have h

video data language models video generation real-world tasks ai applications

发现论文，激发创造

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

通过文本引导的视频生成学习通用策略

通过将序列化决策问题转化为文本条件下的视频生成问题，我们能够推广到新的目标并在不同的环境下进行学习和泛化，从而建立更加通用的智能体。

Jan, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

逐帧思考：使用视频填充和预测评估视频思维链

为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度，我们提出了 VideoCOT 的新研究方向，旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集，其中包含各种现实生活视频和场景描述，以及两个新的视频推理任务：视频填充和场景预测，评估了各种视觉语言模型在 VIP 上的表现，证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。

May, 2023

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

关于生成 AI 和 LLM 在视频生成、理解和流媒体方面的调查

本研究综述了生成人工智能（Generative AI）和大语言模型（LLMs）在视频技术领域中的应用，包括视频生成、理解和流媒体，强调了这些技术在产生高度逼真视频方面的创新应用，在实现现实世界动态与数字创作之间存在重大差距的时候迈出了重要一步。同时，作者还深入探讨了 LLMs 在视频理解方面的先进能力，展示了它们从视觉内容中提取有意义信息的有效性，从而提升了我们与视频的互动。在视频流媒体领域，本文讨论了 LLMs 如何为更高效、以用户为中心的流媒体体验做出贡献，将内容传递适应个体观众的偏好。通过梳理生成 AI 和 LLMs 在与多媒体、网络和人工智能社区相关的视频技术任务中的当前成就、持续挑战和未来可能性，本文突显出这些技术在推动视频技术领域发展方面的巨大潜力。

Jan, 2024

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023