Jun, 2024

面向大规模视频库的检索增强生成

TL;DR通过使用大型语言模型(LLM)生成搜索查询,检索由语音和视觉元数据索引的相关视频片段,并将用户查询与此元数据集成以生成具有特定视频时间戳的响应,我们提出了一种在视频库中应用检索增强生成(RAG)的可互操作体系结构,该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。