Oct, 2024

从文本到视频的时间推理迁移

TL;DR本研究解决了视频大语言模型在时间关系推理中存在的困难,发现问题源于底层语言模型对时间概念的理解不足。通过引入文本时间推理迁移(T3),利用现有图像-文本数据集生成多样的时间推理任务,显著提高了模型在时间推理任务上的表现,展示了文本与视频领域间时间推理能力的有效迁移。