Oct, 2022

跨模态相互知识迁移的视觉答案定位

TL;DR本文提出了一种跨模态互相知识传递的跨模态互知跨度本地化方法 (MutualSL),它包含视觉预测器和文本预测器两个部分,旨在通过构建一种双向动态损失函数以调整传递比例来提高语义知识的理解,以获取视频中自然语言问题的相关和简明时间剪辑答案。实验结果表明,该方法优于其他竞争同类方法,展示了其有效性。