Oct, 2023

视频银行:融合和解耦增强跨模态生成

TL;DR该研究提出了一种名为 Video-Teller 的视频语言基础模型,通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明,该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。