Sep, 2024
TC-LLaVA:在考虑时间因素的情况下重新思考从图像到视频理解的转变
TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with
Temporal Considerations
TL;DR本研究针对现有多模态大语言模型在视频理解任务中存在的局限,提出了两种改进策略,通过优化大语言模型的层间注意力计算来提升其视频理解能力。研究结果表明,TC-LLaVA在多个视频理解基准测试中达到了新的最佳表现,展示了在视频相关数据集上仅通过监督微调的有效性。