Oct, 2023
视频银行:融合和解耦增强跨模态生成
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling
Haogeng Liu, Qihang Fan, Tingkai Liu, Linjie Yang, Yunzhe Tao...
TL;DR该研究提出了一种名为 Video-Teller 的视频语言基础模型,通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明,该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。