自监督神经网络在人类语音上预训练能否辨别动物叫声？

May, 2023

自监督神经网络在人类语音上预训练能否辨别动物叫声？

Can Self-Supervised Neural Networks Pre-Trained on Human Speech distinguish Animal Callers?

Eklavya Sarkar, Mathew Magimai.-Doss

TL;DR本文探讨了在人类语音领域预训练的自监督学习模型是否可以用于生物声学领域，结果表明可以通过这种方式成功地从黄腹掌猴的声音中识别出不同的个体身份信息。

Abstract

self-supervised learning (SSL) models use only the intrinsic structure of a given signal, independent of its acoustic domain, to extract essential information from the input to an embedding space. This implies that the utility of such representations is not limited to modeling human sp

self-supervised learning neural representations bio-acoustic signals caller discrimination caller detection

发现论文，激发创造

自主学习用于少样本鸟声分类

自监督学习在音频领域具有重要潜力，本研究证明自监督学习可以在无需注释的情况下从音频记录中获取有意义的鸟类声音表示，并展示了这些学习表示能够在少样本学习情景中泛化到新的鸟类物种。另外，使用预训练的音频神经网络，在自监督学习中选择高鸟类激活窗口显著提高了学习表示的质量。

Dec, 2023

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

基于音频的情绪识别的自监督学习

情感识别通过音频输入数据的模型可以实现在心理健康、营销、游戏和社交媒体分析等领域的交互式系统的发展。

Jul, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Jun, 2023

在实际应用中应用自监督学习，实现混合式自动语音识别

本文讨论了如何利用未经筛选的音频数据进行自监督学习，在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略，比较了近期开发的对比损失，并通过实验结果表明，利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。

May, 2022

自监督学习对语音识别的受益及演讲者识别

本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素，结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合，同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。

Apr, 2022

自监督神经网络在人类语音上预训练​能否辨别动物叫声？

自监督神经网络在人类语音上预训练能否辨别动物叫声？