BriefGPT.xyz
Ask
alpha
关键词
multimodal attention
搜索结果 - 3
AAAI
音频视觉场景感知对话的上下文、注意力和音频特征探索
通过结合多模式注意力机制与端到端音频分类卷积神经网络,实现智能虚拟助手(IVA)对语音、视觉场景的理解与自然对话,超越了基准系统表现。
PDF
6 years ago
端到端音视频语音识别的模态注意力
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法
→
PDF
6 years ago
COLING
多模态注意力神经机器翻译
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
PDF
8 years ago
Prev
Next