Dec, 2023
EtC:弱监督视频定位的时序边界扩展再澄清方法(Multimodal 大型语言模型)
EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model
Guozhang Li, Xinpeng Ding, De Cheng, Jie Li, Nannan Wang...
TL;DR通过扩展初始伪边界并精炼扩展边界,结合多模态大型语言模型、互相学习和定制的对比学习目标,我们的方法在两个具有挑战性的 WSVG 数据集上表现出优越性。