LASER：通过自我监督学习对齐语音表示以改进内容相关任务

Jun, 2024

LASER：通过自我监督学习对齐语音表示以改进内容相关任务

LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks

Amit Meghanani, Thomas Hain

TL;DR使用 SSFT 方法 LASER，通过自附着自监督表示的学习和对齐，通过少量的 GPU 精调获得相对于 ASR 和 PR 任务的显著改进。

Abstract

self-supervised learning (SSL)-based speech models are extensively used for full-stack speech processing. However, it has been observed that improving SSL-based speech representations using unlabeled speech for content-related tasks is challenging and computationally expensive. Recent

self-supervised learning ssl-based speech models fine-tuning laser content-related tasks

发现论文，激发创造

SCORE：自监督对应微调以改善内容表达

提出了一种称为 SCORE 微调的自我监督一致性微调方法，用于自适应自我监督学习语音表示，以适应与内容相关的任务。与 SPIN 方法相比，SCORE 仅使用 1/3 的处理语音，在超级基准（SUPERB benchmark）上表现出优越的结果。(Translated simplified Chinese summary)

Mar, 2024

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

面向语言识别的标签感知语音表示学习

本文提出了一种新的 Label Aware Speech Representation (LASR) 方法，将自我监督表示学习与语言标签信息相结合，使用三元组目标函数将语言标签与自我监督损失函数结合起来，并进一步优化语音表示以适用于下游任务，发现该方法比现有的语言识别系统更为有效，并可应用于多语音识别任务。

Jun, 2023

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降 23.5%。

Dec, 2021

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022