以视频为新语言进行现实世界决策
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。
Dec, 2014
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度,我们提出了 VideoCOT 的新研究方向,旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集,其中包含各种现实生活视频和场景描述,以及两个新的视频推理任务:视频填充和场景预测,评估了各种视觉语言模型在 VIP 上的表现,证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。
May, 2023
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
Jun, 2020
本研究综述了生成人工智能(Generative AI)和大语言模型(LLMs)在视频技术领域中的应用,包括视频生成、理解和流媒体,强调了这些技术在产生高度逼真视频方面的创新应用,在实现现实世界动态与数字创作之间存在重大差距的时候迈出了重要一步。同时,作者还深入探讨了 LLMs 在视频理解方面的先进能力,展示了它们从视觉内容中提取有意义信息的有效性,从而提升了我们与视频的互动。在视频流媒体领域,本文讨论了 LLMs 如何为更高效、以用户为中心的流媒体体验做出贡献,将内容传递适应个体观众的偏好。通过梳理生成 AI 和 LLMs 在与多媒体、网络和人工智能社区相关的视频技术任务中的当前成就、持续挑战和未来可能性,本文突显出这些技术在推动视频技术领域发展方面的巨大潜力。
Jan, 2024
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明,这种基于文本描述的方法在视频理解任务中取得了成功,为多模态分类提供了一个有前景的新研究方向。
Sep, 2023
通过调研文献并分析各项研究方法,该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法,包括数据预处理技术、神经网络类型以及评估指标。此外,论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言,这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。
Nov, 2023