Oct, 2022

通过问题学习在视频语料库中定位视觉答案

TL;DR本论文介绍一项新的任务,即视频语料库视觉答案定位(VCVAL),旨在使用自然语言问题在大量未剪辑的指导视频中定位视觉答案,并提出了一种跨模态对比全跨度(CCGS)方法来解决 VCVAL 问题,并在 MedVidCQA 数据集上测试了该方法,结果表明该方法在视频语料库检索和视觉答案定位子任务中的表现优于其他竞争方法,可以帮助我们更好地理解指导视频的内容,为后续研究铺平了一条新的道路。