Oct, 2024
你需要的只是基础吗?双重时间基础用于视频对话
Grounding is All You Need? Dual Temporal Grounding for Video Dialog
TL;DR本研究针对视频对话生成中的视频内容理解和对话历史的时间细微差别进行探讨,填补了以往研究在时间动态上的空白。本文提出的双重时间基础视频对话模型(DTGVD)结合了当前两种主要研究方法的优势,通过预测对话特定的时间区域来过滤视频内容,并在视频和对话上下文中具有更强的响应基础。研究结果显示,该模型在视频与对话动态的对齐方面具有显著提升。