audio spectrogram transformers | BriefGPT

关键词audio spectrogram transformers

搜索结果 - 5

音频曼巴：用于音频表示学习的双向状态空间模型
通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。
PDFa month ago
通过适配器的软混合高效微调音频频谱变换器
本论文旨在探索 Mixture of Experts（MoE）在参数高效微调音频光谱变换器用于音频和语音下游任务时的应用，提出了基于适配器的软混合专家方法（Soft-MoA），通过将输入令牌和专家之间进行软分配，不仅保持了计算时间的限制，而
PDF5 months ago
动态卷积神经网络作为高效的预训练音频模型
在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态
PDF8 months ago
FlexiAST：AST 所需的灵活性
这篇论文的目标是给予音频谱图变换器（AST）补丁尺寸的灵活性，通过提出一种训练过程来为标准 AST 模型提供灵活性，使其在推理阶段可以使用各种补丁尺寸，实验证明 FlexiAST 在不同数据集的音频分类任务中，在不同补丁尺寸下保持了与标准
PDFa year ago
音频频谱变换器中基于频率归一化的录音设备通用性改进
本文针对机器学习中训练和应用时间所见数据差异这一主要问题，研究了声场分类中不匹配的录音设备情况。我们发现，通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理，可以减少记录设备之间的差异。本文的主要目标是将这种方法应用于成为声场分类
PDFa year ago