自我监督语音模型界面设计

Jun, 2024

Interface Design for Self-Supervised Speech Models

Yi-Jen Shih, David Harwath

TL;DR提出了一种连接上游和下游模型的接口，通过使用卷积接口设计，其深度与上游模型的深度按对数比例计算，在许多任务上始终优于其他接口设计。

Abstract

self-supervised speech (SSL) models have recently become widely adopted for many downstream speech processing tasks. The general usage pattern is to employ ssl models as feature extractors, and then train a

self-supervised speech ssl models feature extraction downstream prediction interface designs

发现论文，激发创造

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降 23.5%。

Dec, 2021

SSL 交互作用：扩充、归纳偏差，与泛化

本文对自我监督学习的理论与实践中被忽视的问题进行了分析，阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响，并为自我监督学习的从业者指出了一些有价值的见解。

Feb, 2023

前端适配器：适应基于语音的自主学习的前端输入以用于语音识别

本文通过引入一个简单有效的前端适配器，可以使预先训练在波形上的自监督学习（SSL）模型与使用滤波器组频谱特征（Fbank）进行微调的语音识别任务兼容，实验结果表明我们提出的前端适配器对于几个流行的 SSL 模型都有效。

Feb, 2023

结合谱特征和自监督特征进行低资源语音识别和翻译

该研究旨在探索将非学习的谱特征 (SF) 提取器与自我学习模型相结合的有效性，结果表明，该方法显著优于自我学习模型和基线模型，在语音识别和语音翻译两种任务中都表现出更好的性能，在自我学习培训集和目标语言数据存在域不匹配情况时，自我学习模型的相对贡献非常小。

Apr, 2022

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

自监督语音识别模型中避免过度思考

本文介绍了一种应用于 ASR 任务的早期退出策略（EE），借此解决自我监督学习模型在大规模任务中存在的推理速度慢和网络反应过度的问题，并提出了两种新的策略来优化性能和速度之间的平衡。

Nov, 2022

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024