走向语音表征学习的下一个前沿：利用解缠绕

Jul, 2024

走向语音表征学习的下一个前沿：利用解缠绕

Towards the Next Frontier in Speech Representation Learning Using Disentanglement

Varun Krishna, Sriram Ganapathy

TL;DR我们提出了一种名为 Learn2Diss 的自我监督学习语音表示的框架，它包括帧级和话语级编码器模块，通过解开两个编码器并使用基于互信息的标准来进行联合学习，从而在多种任务上实现了最先进的结果，帧级编码器的表示改进了语义任务，而话语级表示改进了非语义任务。

Abstract

The popular frameworks for self-supervised learning of speech representations have largely focused on frame-level masked prediction of speech regions. While this has shown promising downstream task performance fo

self-supervised learning speech representations characteristics of speech learn2diss frame-level encoder

发现论文，激发创造

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

朝向解缠语音表示

本研究构建了一种联合建模的声学表征学习任务，强调去耦合（disentanglement）声音信号的相关和无关部分，然后证明这些理想的、去耦合的方案具有独特的统计性质，并在训练期间强制执行这些性质，使平均 WER 相对提高了 24.5％，这提出了一种新的有效的音频表示的学习方法。

Aug, 2022

多个自监督任务中学习与问题无关的语言表征

本论文提出一种改进的自监督学习方法，其中单个神经编码器由多个工作人员共同解决不同的自监督任务，该方法可学习传输、强健和面向问题的特征，这些特征中包含了从语音信号中提取的相关信息，如讲话者身份、音素和情感线索。

Apr, 2019

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

基于对比学习和深度模块化的语音分离

研究使用对比学习建立框架的表示，并使用学到的表示在下游深度模块化任务中，自监督学习以最小化属于给定说话者的框架之间的距离，以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估，该技术的性能不会随着说话者数量的增加而显着降低。

May, 2023

非平行序列到序列语音转换系统中的语言和说话人分离表征

本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Jun, 2019