逐帧思考：使用视频填充和预测评估视频思维链

May, 2023

逐帧思考：使用视频填充和预测评估视频思维链

Let's Think Frame by Frame: Evaluating Video Chain of Thought with Video Infilling and Prediction

Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei...

TL;DR为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度，我们提出了 VideoCOT 的新研究方向，旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集，其中包含各种现实生活视频和场景描述，以及两个新的视频推理任务：视频填充和场景预测，评估了各种视觉语言模型在 VIP 上的表现，证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。

Abstract

Despite constituting 65% of all internet traffic in 2023, video content is underrepresented in generative AI research. Meanwhile, recent large language models (LLMs) have become increasingly integrated with capabilities in the visual modality. Integrating video with LLMs is a natural next step, so how can this gap be bridged? To advance →

videocot vision-language models video reasoning computational complexity vip

发现论文，激发创造

视觉思维链：多模态填充填补逻辑间隙

通过视觉增强实现 VCoT 方法，利用多模态填充降低序列数据中的逻辑间隙，改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上，VCoT 方法通过人类评估超越了思维链基线模型，提供了新的、一致的合成数据增强。

May, 2023

神经符号化视频搜索

使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Mar, 2024

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

以视频为新语言进行现实世界决策

通过视频生成模型，利用视频数据解决现实世界中的任务是一个被低估的机会，可以在机器人、自动驾驶和科学等领域产生重大影响，但需要解决视频生成中的关键挑战。

Feb, 2024

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

半参数视频文本生成

通过对数据存储库中的视频采用非参数帧检索器进行预处理，将其与查询一起进行聚合，从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。

Jan, 2023

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

视频标题综合信息整合建模框架

为优化电商中消费者生成视频的推荐，我们提出了一种端到端的建模方式，包括综合使用消费者生成视频的内容、评论句子和商品属性，并基于图神经网络实现多粒度视频分析和故事线总结。

Jun, 2020

视频字幕及其应用的综合方法

本研究通过关键帧识别和允许用户平衡速度和准确率的设计，使用深度学习算法对长视频进行编码，提高速度并减少计算量，以实现视频字幕深度学习应用。

Jan, 2022

FusionFrames：文本到视频生成流程的高效架构方案

本研究提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构，该架构对关键帧合成和插值帧生成进行建模，并通过比较不同的时间条件方法和视频解码方案进行实验评估，最终在视频生成质量方面取得了较好的结果。

Nov, 2023