BriefGPT.xyz
Ask
alpha
关键词
visual and auditory signals
搜索结果 - 1
AAAI
多模态 LSTM 的发言人识别技术 - 看、听、学习
本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。
PDF
8 years ago
Prev
Next