探索基于元信息的音频零样本鸟类分类
本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类,并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影,即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类,其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明:“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。
Nov, 2020
通过建立鸟鸣音的生成模型和采用新颖性检测技术,可以在全球范围内使用廉价的无人值守记录站或使用移动设备上的录音和物种识别进行大规模众包,可靠地识别动物物种的能力受到限制。
May, 2015
使用现代机器学习技术进行鸟类检测,无需人工重新校准,也不需要针对目标物种或目标环境中的声学条件进行预训练,可在远程监测数据中实现非常高的检索率,达到约 88%的 AUC 性能,并讨论了将这种检测方法整合到远程监测项目中的方法。新的声学监测数据集被提出并进行了详细的性能评估。
Jul, 2018
利用无损声学监测方法追踪全球生物多样性和人类活动对物种的影响,在此工作中,我们提出了一种基于对比语音 - 音频预训练的生物声学模型 BioLingual,该模型能够跨类别识别超过一千种动物的叫声并通过自然语言查询检索动物语音记录。
Aug, 2023
本研究着眼于设计一种无线传感器网络来支持对濒危鸟类族群的观测。在对样本的声学数据进行知识发现的初步阶段,我们使用从鸟歌中提取的 MFCC 特征和两种知识发现技术(基于聚类的方法和基于预测建模的方法)来分析数据。研究结果表明,机器学习技术在鸟类种类识别过程中具有良好的表现,并为基于声学传感器的自动数据收集方法的设计提供了有希望的结果和指导建议。
Jun, 2013
本文研究了音乐领域中的零样本学习,并组织了两个不同的副信息设置,探讨人类标记的属性信息和一般词语语义信息的适用性,在音乐分类和多标签零样本学习方面提出了数据分割方案和评估设置,并报告了实验结果。
Jul, 2019
应对训练和部署条件的差异(例如分布偏移或对全新类别的泛化)对于机器学习模型在实际应用中至关重要。本研究提出了一个复杂的基准测试集 BIRB,以检索从大型公众科学语料库中经过被动记录的数据集中的鸟类声音。通过使用表示学习和最近质心搜索的基线系统,我们的实证评估和分析展示了开放性的研究方向,同时也建议 BIRB 作为更真实、更复杂的基准测试集,来推动对于分布偏移鲁棒性和机器学习模型泛化的进展。
Dec, 2023
本文针对鸟类声音识别的比赛提出了在半监督数据集注释的情况下采用迁移学习的工作笔记,利用 BirdNET 和 MixIT 模型进行样本表示和标注,实验表明迁移学习和半监督数据集注释在相似任务中有潜力。
Jun, 2023
深度学习模型在鸟类生物声学中作为强大的工具出现,但是研究中的不一致性对这一领域的进展构成了重大挑战。为了克服这些挑战,我们提出了 BirdSet 基准测试,这是一个统一的框架,通过整体方法来对鸟类生物声学中的鸟叫进行分类。BirdSet 通过将开源鸟类录音整合到一个经过精心策划的数据集合中,为当前模型的基线结果建立了统一的基础,旨在促进可比性、指导后续数据收集,并提高对鸟类生物声学的新手的可访问性。
Mar, 2024