Mar, 2022

面向医学教学视频的视觉提示暂态问答

TL;DR提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV),该方法通过时间戳字幕作为文本输入,将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示,以帮助跨模态交互,实现更好的文本跨度定位和匹配,该方法在医学操作数据集 MedVidQA 上表现优异,超越了其他 SOTA 方法。