基于发音无关聚类的自监督微调，用于改善内容表示

May, 2023

基于发音无关聚类的自监督微调，用于改善内容表示

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

Heng-Jui Chang, Alexander H. Liu, James Glass

TL;DR提出了一个新的自监督学习方法 — 发音者无关聚类 (Spin)，它使用 45 分钟的微调，能够聚类语音表示，并在原始和说话者扰动话语之间执行交换预测，从而分解说话者信息并保留内容表示，并在语音识别和声学单元发现方面优于现有方法。

Abstract

Self-supervised speech representation models have succeeded in various tasks, but improving them for content-related problems using unlabeled data is challenging. We propose speaker-invariant clustering (Spin), a

self-supervised learning speech representation clustering speaker information fine-tuning

发现论文，激发创造

R-Spin: 高效的说话人和噪声不变表示学习与声学片段

该论文介绍了 Robust Spin（R-Spin），一种用于演讲者和噪声不变的语音表征的数据高效自监督微调框架，通过学习具有演讲者不变聚类（Spin）的离散声学单元。R-Spin 通过学习预测声学片段来解决 Spin 的问题并增强内容表征。在严重扭曲的语音情景中，与之前的最先进方法相比，R-Spin 在计算资源上减少了 12 倍，同时表现更好。该论文提供了详细的分析，显示离散单元对语音编码器训练和在多样的声学环境中提高鲁棒性的贡献。

Nov, 2023

自监督表示在口语建模中的鲁棒性

本文探讨了基于自监督学习的语音表征模型的鲁棒性问题，提出了一种基于伪标注技术的有效学习自监督语音表征的方法，该方法可显著提高语音编码的效果，并在语音翻译任务中得到了验证。

Sep, 2022

DinoSR：基于自蒸馏和在线聚类的自监督语音表示学习

本研究介绍 DinoSR，一种使用自我蒸馏和在线聚类的自监督语音表示学习方法，其中结合了掩码语言建模，自我蒸馏和在线聚类，实验表明这些概念互补，并形成了语音强表示学习模型。

May, 2023

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

自我对弈微调将弱语言模型转化为强语言模型

通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Jan, 2024

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

面向效率的自监督语音表示学习方法

自我监督学习在计算机视觉、自然语言处理、生物学和语音等多个领域取得突破，然而现有方法的计算成本较高，限制了模型的部署、训练数据集的规模以及拥有大型自我监督模型的研究机构的数量。因此，需要进一步研究以解决自我监督表示学习中高计算成本的问题。

Dec, 2023

LASER：通过自我监督学习对齐语音表示以改进内容相关任务

使用 SSFT 方法 LASER，通过自附着自监督表示的学习和对齐，通过少量的 GPU 精调获得相对于 ASR 和 PR 任务的显著改进。

Jun, 2024