AeroSonicDB (YPAD-0523) 数据集的航空器声学检测与分类

Nov, 2023

AeroSonicDB (YPAD-0523) 数据集的航空器声学检测与分类

The AeroSonicDB (YPAD-0523) Dataset for Acoustic Detection and Classification of Aircraft

Blake Downward, Jon Nordby

TL;DR本论文描述了利用 ADS-B 无线电传输来被动采集和标记音频样本的方法，介绍了 AeroSonicDB（YPAD-0523）数据集，该数据集包含用于训练声学检测和分类系统的低空飞行器声音。文中提供了所收集的数据集的摘要，并展示了三个二元分类模型的基准结果，讨论了当前数据集的局限性和未来的潜力。

Abstract

The time and expense required to collect and label audio data has been a prohibitive factor in the availability of domain specific audio datasets. As the predictive specificity of a classifier depends on the specificity of the labels it is trained on, it follows that finely-labelled datasets are crucial for advances in →

audio dataset machine learning acoustic detection classification systems ads-b radio transmissions

发现论文，激发创造

AVOIDDS: 基于飞机视觉的入侵者检测数据集与模拟器

本文介绍了 AVOIDDS，这是一个逼真的目标检测基准测试，包含了 72000 个逼真的图片数据集，以及相应的模型评估接口和整个仿真问题的解决方案，在安全关键应用中，这样的基准测试将有助于设计稳健的机器学习系统。

Jun, 2023

ToyADMOS：一份用于异常声音检测的小型机器操作声音数据集

本文介绍了一个新的数据集，名为 “ToyADMOS”，用于机器操作声音（ADMOS）的异常检测。该数据集包括用于机器状态检查、几何固定任务的机器故障诊断和移动任务的机器故障诊断的三个子数据集，每个子数据集包括超过 180 个小时的正常机器操作声音，以及超过 4000 个异常声音样本。

Aug, 2019

MVD：一种用于声学车辆类型分类的新方法和数据集

通过使用声学交通监测，对城市人口的快速增长造成的交通问题进行监控和管理，本研究开发了声学交通监测和车辆类型分类算法的两个开放数据集 MVD 和 MVDA，并提供了一种有效的方法来利用倒谱和谱的本地和全局音频特征以及多输入神经网络来准确分类这些声学信号，实验结果表明，我们的方法提高了前人工作的基线，对 MVD 和 MVDA 数据集的准确率分别达到 91.98% 和 96.66%，最后，我们通过一个 Android 应用程序部署该模型，以方便测试和展示其有效性。

Sep, 2023

TartanAviation：终端空域操作的图像、语音和 ADS-B 轨迹数据集

TartanAviation 是一个开源的多模态数据集，集中在终端区域空域操作上，提供了图片、语音和 ADS-B 轨迹数据，可用于在空中交通管制系统中集成人工智能和机器学习技术以及推进自主飞行器的采用。

Mar, 2024

使用带有噪声标签的网络音频学习声音事件分类器

该研究针对大型数据集中的声音事件分类中标签噪声的问题，提出了 FSDnoisy18k 数据集，并提供了卷积神经网络（CNN）基准系统。实验证明，与小型仔细标记的数据相比，大量带噪声的数据可以更好地训练模型，同时还证明了当标签数据受损时，噪声鲁棒性损失函数可以有效地提高模型性能。

Jan, 2019

大规模真实世界 ACARS 和 ADS-B 无线电信号分类的深度学习

本文使用深度学习在真实的 ACARS 和 ADS-B 信号数据集上进行信号分类，实验结果表明使用单一的基础神经网络模型结构在不同类型的无线电信号的处理上是可行的。

Apr, 2019

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

FSD50K：一个带有人工标记的声音事件开放数据集

介绍了一个新的开放音频数据集 FSD50K，其包含了来自 AudioSet 本体中的 200 个分类中的超过 51k 个手动标记的音频片段，旨在成为声音事件识别（SER）领域的新开放基准数据集。

Oct, 2020

YODAS: 面向 YouTube 的音频和语音数据集

本研究介绍了 YODAS（YouTube 定向音频和语音数据集），这是一个包含 100 多种语言中超过 500,000 小时语音数据的大规模多语言数据集，数据来源于已标记和未标记的 YouTube 语音数据集。我们介绍了 YODAS 的收集方法，并提供了对数据集内的语音和文本的全面分析。最后，我们描述了在前 15 种语言上的语音识别基线。

Jun, 2024

探索基于元信息的音频零样本鸟类分类

这项研究利用元信息来改善零样本音频分类，以鸟类物种作为例子进行了研究，并通过文本描述、功能特征和鸟类生活历史三种元信息的来源，提取了音频特征并采用零样本学习算法得出了最佳结果。

Sep, 2023