重构一切：用 LLM 智能代理进行开放世界视频重构

Mar, 2024

重构一切：用 LLM 智能代理进行开放世界视频重构

Reframe Anything: LLM Agent for Open World Video Reframing

Jiawang Cao, Yongliang Wu, Weiheng Chi, Wenbo Zhu, Ziyue Su...

TL;DR通过使用大型语言模型 LLM，本研究提出了一种基于视觉基础模型和人类指导的 Reframe Any Video Agent (RAVA) 来自动化视频重构过程，实验证明了 RAVA 在视频显著对象检测和实际重构任务上的有效性，展示了其作为 AI-powered 视频编辑工具的潜力。

Abstract

The proliferation of mobile devices and social media has revolutionized content dissemination, with short-form video becoming increasingly

mobile devices social media short-form video video reframing large language models

发现论文，激发创造

LAVE：LLM 引领的视频编辑代理与语言增强

通过将大型语言模型（LLMs）与视频编辑流程相结合，我们提出了一种名为 LAVE 的新系统，使用 LLMs 提供代理辅助和语言增强的编辑功能，以减少初学者的编辑障碍，并通过用户研究证明了 LAVE 的有效性和对用户创造力和共创感的影响。

Feb, 2024

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

利用强化学习从 AI 反馈中优化大型多模态视频模型

大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略，称为从 AI 反馈中的强化学习，通过提供详细的视频描述来丰富视频内容的理解，以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基准测试中表现出卓越的性能，超过了现有的方法，包括 SFT 模型。我们致力于开源我们的代码、模型和数据集，以促进该领域的进一步研究。

Feb, 2024

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

使用文本数据的强化学习快进视频

本文提出一种基于强化学习的方法来加速教学视频，该方法可以自适应地选择不相关的帧以缩小输入视频，同时使用 Visually-guided Document Attention Network（VDAN）产生高度判别的嵌入空间来表示文本和视觉数据，实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。

Mar, 2020

基于多智能体强化学习的帧采样技术在未剪辑视频识别中的应用

该研究旨在通过开发基于学习的帧采样策略，改进未修剪视频分类，并借鉴多智能体强化学习框架解决多种手工制作策略带来的性能损耗问题。实验结果显示，该方法在各种 2D 和 3D 基线方法上取得的成果优于手工制作策略，并实现了新的 YouTube Birds 和 YouTube Cars 领域的最佳表现。

Jul, 2019

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

美餐之眼：多模态大型语言模型的分辨率混合适应

基于图像分辨率的新型多模态大语言模型方法 (LLaVA-HR) 通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题，在 11 个视觉 - 语言任务中表现出比现有模型更好的性能。

Mar, 2024

采用强化学习的实时视频调整

在 Facebook 视频流平台，我们评估最新提出的基于 RL 的自适应比特率算法，采用可扩展的神经网络架构设计，利用贝叶斯优化进行奖励塑形，优化用户体验目标，以应对网络环境的随机性方差。在全球范围内超过 3000 万次视频流会话中，我们的 RL 方法优于现有的人工设计的算法。

Aug, 2020