May, 2024
多模态大型语言模型实现活动的时间连接
Temporal Grounding of Activities using Multimodal Large Language Models
TL;DR通过结合基于图像和基于文本的大型语言模型,这篇论文在两个阶段的方法中评估近期多模态大型语言模型在时间活动定位中的有效性,并表明此方法胜过现有的基于视频的大型语言模型;此外,论文还研究了对较小的多模态语言模型进行指导调整的影响,结果显示提高其处理动作查询的能力可生成更加富有表达力和信息量的输出,从而增强其在识别特定时间活动间隔方面的性能;在Charades-STA数据集上的实验结果突显了该方法在推动时间活动定位和视频理解领域的潜力。