May, 2023

基于注意力机制的音频问答方法

TL;DR本文提出了基于自注意力和交叉注意力的神经网络体系结构,用于 Audio Question Answering (AQA) 任务,分别提取强大的音频和文本表示,并获得优于参考方法的结果,同时讨论了 Clotho-AQA 数据集中的一些挑战并给出了修改版本。