Oct, 2022

面向零资源口语语言的视觉提示关键词定位

TL;DR该论文提出了视觉提示关键字定位 (VPKL) 任务,旨在通过一个具有新型定位注意力机制的语音视觉模型,使用一个新的关键字采样方案定位和预测输入中的关键字,相较于基于视觉词袋模型(Visual BoW)的检测和定位,VPKL 模型在关键字检测和定位精度上都有了提高,定位 F1 值相较词袋模型提升了 16%。