自我监督的口语语言表示在语音语言分离中的应用

Aug, 2023

自我监督的口语语言表示在语音语言分离中的应用

Implicit Self-supervised Language Representation for Spoken Language Diarization

Jagabandhu Mishra, S. R. Mahadeva Prasanna

TL;DR在一个混合语言环境中，使用隐性框架的语音语言编组（LD）作为预处理系统是必要的。通过基于固定分割、基于变化点分割和 E2E 的三种框架，提出了三种实现 LD 的方法。而当使用微软 CS（MSCS）数据集时，使用 E2E 框架的隐性 LD 的性能下降至 60.4%，主要是由于 MSCS 和 TTSF-LD 数据集中辅助语言的单语片段持续时间的分布差异。因此，为解决这个问题，本研究提出了一种自监督的隐性语言表示方法，相对于 x-vector 表示，该方法实现了约 63.9% 的改进，并在 E2E 框架下取得了 21.8 的 JER。

Abstract

In a code-switched (CS) scenario, the use of spoken language diarization (LD) as a pre-possessing system is essential. Further, the use of implicit frameworks is preferable over the explicit framework, as it can be easily adapted to deal with low/zero resource languages. Inspired by sp

code-switching spoken language diarization implicit frameworks segmentation self-supervised implicit language representation

发现论文，激发创造

隐式口语分片

本研究探讨了利用深度学习的端到端 x - 向量方法进行语音流言分离的性能表现，并发现预训练的 wave2vec 嵌入可以提供近 30% 的错误率改进。

Jun, 2023

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023

面向多语言代码混合语音的自监督语音表示微调进行语言分离

探讨利用大型自我监督预训练架构（WavLM）从已经训练好的语音表示中提取信息，以发展连续多语言语言标示系统，用于多语言转换的标注过程，在南非五种语言（isiZulu、isiXhosa、Setswana、Sesotho 和英语）的语料库中展示出语言家族、语言群和个体语言的大幅改进。

Dec, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

无监督跨语言表示学习用于语音识别

XLSR 是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在 wav2vec 2.0 的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

我们介绍了一个新的零资源代码切换语音基准，旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统，以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是，尽管我们的结果表明，在代码切换场景中，具有多语言预训练的语音编码器（如 XLSR）优于单语变体（Wav2vec 2.0、HuBERT），但它们的代码切换语言能力仍有很大的改进空间。

Oct, 2023