BYOL-S: 通过启动自助学习的方式学习自监督语音表示

Jun, 2022

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping

Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal...

TL;DR本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中，我们的实验表明，使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。

Abstract

Methods for extracting audio and speech features have been studied since pioneering work on spectrum analysis decades ago. Recent efforts are guided by the ambition to develop general-purpose →

audio speech neural networks self-supervised learning hybrid model

发现论文，激发创造

BYOL 音频表示的自监督学习：用于通用音频表征

本研究提出了一种基于自我监督学习的通用音频表示学习方法，采用 Bootstrap Your Own Latent (BYOL) for Audio 方法，通过标准化和数据增强技术，从单个音频段中学习音频表示，在各种下游任务中实现了最先进的结果。

Mar, 2021

透过听力引导语义：口语句子嵌入的无监督学习

本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed，一个多模态连续自编码器，用于预测从语音传感器中提取的隐藏单元的密集嵌入，其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等（0.5~0.6），且无需依赖任何标签或转录，这些模型还可以轻松扩展以利用语音的文本转录来学习更好的嵌入。

Oct, 2022

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

移动设备自监督音频表示学习

我们探索了可以在移动设备上部署的自监督模型来学习通用音频表示，具体而言，我们提出了利用频谱图域中的时间上下文的方法。一种方法估计从同一音频剪辑中随机提取的两个短音频片段之间的时间间隔。其他两种方法受 Word2Vec 的启发，旨在从过去和未来切片中重建时间频谱图切片，或者从当前切片重建周围切片的上下文。我们关注使用小型编码器体系结构的评估，这些体系结构可以在推理（在多个下游任务中重复使用共同学习的表示）和训练（与联合学习结合使用时捕获真实数据分布而不损害用户隐私）期间潜在运行于移动设备。我们评估了自我监督学习模型产生的嵌入质量，并表明它们可以被重新用于各种下游任务，甚至对一些任务的性能接近相似大小的全监督模型。

May, 2019

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

Audio ALBERT：轻量化的 BERT 模型用于音频自监督学习表示

本文提出了一种自监督的语音表示模型 Audio ALBERT，比已有模型使用更少的参数，在说话人识别和音素分类等下游任务中实现了竞争性的性能，并发现隐表示编码了更丰富的说话人和音素信息。

May, 2020

多个自监督任务中学习与问题无关的语言表征

本论文提出一种改进的自监督学习方法，其中单个神经编码器由多个工作人员共同解决不同的自监督任务，该方法可学习传输、强健和面向问题的特征，这些特征中包含了从语音信号中提取的相关信息，如讲话者身份、音素和情感线索。

Apr, 2019

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019