关键词visual keyword spotting
搜索结果 - 3
- 注意力视觉关键词检测
本研究提出 Transpotter 模型,使用全面的跨模态注意力机制在视觉和语音流之间进行交互,成功实现静默视频序列中的语音关键词检测,并且在多项测试中,优于当前视觉关键词检测和唇语识别模型,并具备较强的嘴型单词分离的能力。
- 观察唤醒词:视听关键词检测
本研究提出一种名为 KWS-Net 的卷积神经网络结构,通过序列匹配和模式检测技术,从视觉角度自动检测并确定在何时,是否有包含关键词的口型出现,在无音频或有清晰 / 嘈杂语音的情况下,性能优于现有的同类方法,还在跨语言处理上实现了良好的表现 - ECCV野外视觉语音识别零样本关键词检测
本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题,并使用端到端的多层神经网络架构,使用语音图形编码器解决了此问题,该模型在 LRS2 数据集上取得了非常有前途的结果。