BriefGPT.xyz
Ask
alpha
关键词
speech-vision model
搜索结果 - 1
面向零资源口语语言的视觉提示关键词定位
该论文提出了视觉提示关键字定位 (VPKL) 任务,旨在通过一个具有新型定位注意力机制的语音视觉模型,使用一个新的关键字采样方案定位和预测输入中的关键字,相较于基于视觉词袋模型(Visual BoW)的检测和定位,VPKL 模型在关键字检测
→
PDF
2 years ago
Prev
Next