Dec, 2023
EtC:弱监督视频定位的时序边界扩展再澄清方法(Multimodal大型语言模型)
EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model
TL;DR通过扩展初始伪边界并精炼扩展边界,结合多模态大型语言模型、互相学习和定制的对比学习目标,我们的方法在两个具有挑战性的WSVG数据集上表现出优越性。