Mar, 2024

重构一切:用 LLM 智能代理进行开放世界视频重构

TL;DR通过使用大型语言模型 LLM,本研究提出了一种基于视觉基础模型和人类指导的 Reframe Any Video Agent (RAVA) 来自动化视频重构过程,实验证明了 RAVA 在视频显著对象检测和实际重构任务上的有效性,展示了其作为 AI-powered 视频编辑工具的潜力。