BriefGPT.xyz
Ask
alpha
关键词
end-to-end audio-visual multi-talker speech recognition
搜索结果 - 1
使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别
本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM),使用可用的视频信息将解码的文本分配给多个可见面孔中的一个,具有解决多人说话建模方法中的标签歧义问题,该方法实现为基于 Transformer-Tr
→
PDF
2 years ago
Prev
Next