BriefGPT.xyz
Ask
alpha
关键词
multimodal lstm
搜索结果 - 2
ICCV
用于参考图像分割的循环多模态交互
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
PDF
7 years ago
AAAI
多模态 LSTM 的发言人识别技术 - 看、听、学习
本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。
PDF
8 years ago
Prev
Next