BriefGPT.xyz
Ask
alpha
关键词
audio-visual grounding
搜索结果 - 1
CVPR
探索上下文、注意力和音频特征用于音频视觉场景感知对话
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,
→
PDF
5 years ago
Prev
Next