May, 2024

利用对齐的视频字幕增强的视频富文本检索生成

TL;DR我们提出使用“对齐视觉标题”作为一种机制,将视频中的信息整合到基于检索增强生成的聊天助手系统中,这些标题能够以文本形式描述视频的视觉和音频内容,并且易于理解和加入到大型语言模型的提示中,同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中,我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。