3D-Speaker：用于语音表示分离的大规模多设备、多距离和多方言语料库

Jun, 2023

3D-Speaker：用于语音表示分离的大规模多设备、多距离和多方言语料库

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

PDF

Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen

TL;DR本研究介绍了一个大规模语音语料库 3D-Speaker，用于促进语音表征分离的研究。3D-Speaker 含有超过 10,000 个说话者的语音数据，包括不同距离、不同方言等多维度组合，适用于评估大型普适性语音模型的性能并尝试领域外学习和自监督学习方法。

Abstract

Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of →

speech representation disentanglement large-scale corpus multi-domain self-supervised learning

发现论文，激发创造

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

MultiTalk: 多语种视频数据集增强跨语言的三维说话头生成

通过多语种 2D 视频数据集，引入多语种增强模型，利用语言特定的样式嵌入，提高了 3D 说话人模型的多语种性能，并提出了度量多语种环境下的唇同步准确性指标。

Jun, 2024

DISPLACE 挑战 2023 摘要 -- 对话环境中的发音者和语言判别

在多语言社会中，非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试，其中 Track-1 专注于多语境的说话者鉴别，而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统，并提供了顶尖系统的概述，强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。

Nov, 2023

走向语音表征学习的下一个前沿：利用解缠绕

我们提出了一种名为 Learn2Diss 的自我监督学习语音表示的框架，它包括帧级和话语级编码器模块，通过解开两个编码器并使用基于互信息的标准来进行联合学习，从而在多种任务上实现了最先进的结果，帧级编码器的表示改进了语义任务，而话语级表示改进了非语义任务。

Jul, 2024

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

探索口语理解中有关说话人信息以改进说话人分离

本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

May, 2023

2023 年位移式演讲者脱机化挑战的系统描述

这篇论文描述了我们对会话环境中演讲者和语言进行辨认的解决方案，我们使用了语音活动检测、基于 Resnet 架构的 CNN 进行特征提取以及基于谱聚类的特征聚类。尽管未使用印地语进行训练，所描述的算法在数据集的开发和阶段 1 评估部分获得了 DER 分别为 27.1% 和 27.4% 的指标。

Jun, 2024

学习解缠绕语音表示

利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果，弥补有限的语音数据集缺乏已知生成因素的问题，为现有最先进的语音表征学习方法提供全面的评估和框架，进一步推动这个相对较少探索的领域的发展。

Nov, 2023

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023