BriefGPT.xyz
Ask
alpha
关键词
temporal answering grounding in video
搜索结果 - 1
面向医学教学视频的视觉提示暂态问答
提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV),该方法通过时间戳字幕作为文本输入,将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示,以帮助跨模态交互,实现更好的文本跨
→
PDF
2 years ago
Prev
Next