Asca：少量音频数据揭示更多洞见

Sep, 2023

Asca: less audio data is more insightful

Xiang Li, Junhao Chen, Chao Li, Hongwu Lv

TL;DR基于 CoAtNet 的 ASCA 结合了 Transformer-convolution 混合架构、新颖的网络设计和注意力技术，结合数据增强和正则化策略，在 BirdCLEF2023 和 AudioSet (Balanced) 测试中分别获得了 81.2% 和 35.1% 的准确率，明显优于竞争方法。

Abstract

audio recognition in specialized areas such as birdsong and submarine acoustics faces challenges in large-scale pre-training due to the limitations in available samples imposed by sampling environments and specif

audio recognition specialized areas asca transformer model data enhancement

发现论文，激发创造

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

韧性、通用且低复杂度声景分类系统和一个有效的声景上下文呈现可视化工具

本文提出了一种基于残差 - 插入结构网络的深度神经网络模型，实现了场景噪音的准确识别，并进行了模型细节及误差分析，提高了模型效果和性能，同时提出了一种可视化方法以全面展示场景上下文。

Oct, 2022

采用师生方案和多频谱图的音效场景分类低复杂度深度学习框架

本文提出了一种低复杂度深度学习系统，通过两个阶段的教师 - 学生网络训练，从而实现声场分类问题的高精度解决，精度达到了 57.4% 并且比常规的 DCASE 基线提升了 14.5%。

May, 2023

基于两阶段分类和数据增强的设备鲁棒性声场分类

实现了一个使用 CNN、数据增强、量化和模型融合的音频场景分类系统，可以将多个设备录制的音频信号精细分类为 10 个细粒度类别和 3 个高层级类别，并在不增加复杂度的情况下获得高准确率

Jul, 2020

低复杂度 CNN 音场分类

本文提出了一种低复杂度卷积神经网络框架及相应模型压缩技术和结合多低复杂度卷积神经网络的集成框架，实验表明该框架在声场分类任务上能够获得较好的性能提升。

Jul, 2022

设备鲁棒声场分类的两阶段方法

本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性，通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析，该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。

Nov, 2020

用卷积神经网络和 x-vector 嵌入进行 DCASE2018 声学场景分类挑战

本文描述了布尔诺科技大学参加 DCASE-2018 挑战的任务 1（声景分类，ASC）提交作品。采用了两种不同的卷积神经网络拓扑结构，结合了 log mel-spectrogram 和 CQT 特征提取声音，以及一维 CNN 提取固定长度的 x 向量。多种系统输出采用简单的输出平均法，最优表现中我们的提交获得了 ASC 子任务 A（task1a）24 个团队中的第三名。

Oct, 2018

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020