AeroSonicDB (YPAD-0523) 数据集的航空器声学检测与分类
本文介绍了 AVOIDDS,这是一个逼真的目标检测基准测试,包含了 72000 个逼真的图片数据集,以及相应的模型评估接口和整个仿真问题的解决方案,在安全关键应用中,这样的基准测试将有助于设计稳健的机器学习系统。
Jun, 2023
本文介绍了一个新的数据集,名为 “ToyADMOS”,用于机器操作声音(ADMOS)的异常检测。该数据集包括用于机器状态检查、几何固定任务的机器故障诊断和移动任务的机器故障诊断的三个子数据集,每个子数据集包括超过 180 个小时的正常机器操作声音,以及超过 4000 个异常声音样本。
Aug, 2019
通过使用声学交通监测,对城市人口的快速增长造成的交通问题进行监控和管理,本研究开发了声学交通监测和车辆类型分类算法的两个开放数据集 MVD 和 MVDA,并提供了一种有效的方法来利用倒谱和谱的本地和全局音频特征以及多输入神经网络来准确分类这些声学信号,实验结果表明,我们的方法提高了前人工作的基线,对 MVD 和 MVDA 数据集的准确率分别达到 91.98% 和 96.66%,最后,我们通过一个 Android 应用程序部署该模型,以方便测试和展示其有效性。
Sep, 2023
TartanAviation 是一个开源的多模态数据集,集中在终端区域空域操作上,提供了图片、语音和 ADS-B 轨迹数据,可用于在空中交通管制系统中集成人工智能和机器学习技术以及推进自主飞行器的采用。
Mar, 2024
该研究针对大型数据集中的声音事件分类中标签噪声的问题,提出了 FSDnoisy18k 数据集,并提供了卷积神经网络(CNN)基准系统。实验证明,与小型仔细标记的数据相比,大量带噪声的数据可以更好地训练模型,同时还证明了当标签数据受损时,噪声鲁棒性损失函数可以有效地提高模型性能。
Jan, 2019
本文使用深度学习在真实的 ACARS 和 ADS-B 信号数据集上进行信号分类,实验结果表明使用单一的基础神经网络模型结构在不同类型的无线电信号的处理上是可行的。
Apr, 2019
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
介绍了一个新的开放音频数据集 FSD50K,其包含了来自 AudioSet 本体中的 200 个分类中的超过 51k 个手动标记的音频片段,旨在成为声音事件识别(SER)领域的新开放基准数据集。
Oct, 2020
本研究介绍了 YODAS(YouTube 定向音频和语音数据集),这是一个包含 100 多种语言中超过 500,000 小时语音数据的大规模多语言数据集,数据来源于已标记和未标记的 YouTube 语音数据集。我们介绍了 YODAS 的收集方法,并提供了对数据集内的语音和文本的全面分析。最后,我们描述了在前 15 种语言上的语音识别基线。
Jun, 2024
这项研究利用元信息来改善零样本音频分类,以鸟类物种作为例子进行了研究,并通过文本描述、功能特征和鸟类生活历史三种元信息的来源,提取了音频特征并采用零样本学习算法得出了最佳结果。
Sep, 2023