音频问答的多尺度关注
本文提出了基于自注意力和交叉注意力的神经网络体系结构,用于 Audio Question Answering (AQA) 任务,分别提取强大的音频和文本表示,并获得优于参考方法的结果,同时讨论了 Clotho-AQA 数据集中的一些挑战并给出了修改版本。
May, 2023
本研究使用音频问题回答(Audio Question Answering,AQA)任务研究机器学习模型的时间推理能力,并提出 Multiple Auxiliary Controllers for Linear Modulation(MALiMo),一种扩展的 Feature-wise Linear Modulation(FiLM)模型,显著提高了其时间推理能力。
Nov, 2019
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。
Mar, 2022
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。
May, 2023
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019
通过提出一种渐进自适应多模态融合网络(PAMFN),该网络利用视觉信息和音频信息相结合以提高动作质量评估的准确性。研究表明,音频是一种有效的补充信息,尤其对于带有背景音乐的体育项目,如花样滑冰和韵律体操。PAMFN 由三个专注于各自信息的分支和一个逐渐聚合各种信息的混合分支构成,采用了一些创新模块来建立各分支之间的联系。这个研究还引入了自适应融合模块,旨在学习不同动作部分的适应性多模态融合策略。
Jan, 2024
本篇研究提出了一种使用多窗口的遮盖自编码器和多头注意力机制进行多领域音频数据建模的方法,并对比了标准遮盖自编码器的性能效果和特征获取能力。实验结果表明,多窗口的遮盖自编码器在处理多领域音频数据时具有更好的性能和特征提取能力,并且获得了更加独立的特征分层。
Jun, 2023
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架),利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集,同时提供了三个广泛和高质量的 AQA 基准数据集,该框架和数据集推动了 AQA 研究的进展,并且所训练的模型在性能上优于现有的最先进模型,而且相比人工注释的训练数据,本数据集上训练的模型表现出更强的泛化能力。
Dec, 2023
本文提出了一个多级关注模型来解决弱标签音频分类问题。 实验证明,与单级关注模型和 Google 基线相比,该模型在 Google 音频数据集上表现出更高的平均精度(mAP)。
Mar, 2018