使用生成对抗网络实现语音匿名化，以保护说话人隐私

Oct, 2022

使用生成对抗网络实现语音匿名化，以保护说话人隐私

Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy

Sarina Meyer, Pascal Tilli, Pavel Denisov, Florian Lux, Julia Koch...

TL;DR本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法，将其整合到语音转文字转语音的流程中，成功实现保护隐私的同时保持较高的效能表现。

Abstract

In order to protect the privacy of speech data, speaker anonymization aims for hiding the identity of a speaker by changing the voice in speech recordings. This typically comes with a →

speaker anonymization privacy speaker embeddings generative adversarial network wasserstein distance

发现论文，激发创造

基于对说话人嵌入进行对抗扰动的异步语音匿名化

本文研究声音匿名化技术，重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法，采用包含说话人解缠机制的语音生成框架生成匿名语音，并通过对说话人嵌入进行对抗扰动改变说话人特征，同时通过控制扰动强度保留人类感知。实验结果表明，在 LibriSpeech 数据集上处理的 utterances 中，60.71％的处理结果达到了说话人特征的匿名化且保留了人类感知。

Jun, 2024

面向私有语音生成的对抗表示学习

通过生成式对抗网络（GANs）的模型设计，训练一个 U 型卷积神经网络，用于隐藏声音数据中的敏感个人信息，例如性别等。

Jun, 2020

评估基于语音转换的隐私保护对抗已知攻击者的有效性

本文考察了基于语音转换的匿名化方法，在三种攻击情景中比较了两种基于频率扭曲的转换方法和一种基于深度学习的方法，结果表明语音转换方案不能有效地防止具有广泛知识的攻击者，但可能为不太熟悉的攻击者提供一定的保护。

Nov, 2019

匿名化语音：评估和设计说话人匿名化技术

该论文讨论了语音用户界面的增长，以及由此带来的语音数据收集和存储问题。研究提出了匿名化语音和度量匿名程度的解决方案，并介绍了评估协议需要考虑的挑战，最后探讨了一种新的攻击方法以逆转匿名化。

Aug, 2023

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

使用生成对抗网络进行声音模仿

本文提出了基于神经网络的新型语音质量和风格模拟框架，用于合成模仿的声音，并通过生成对抗网络模型构建了快速准确的语音模拟框架，实现了模拟不同性别的声音等功能。

Feb, 2018

使用 X - 向量和神经波形模型进行说话者匿名化

研究表明，使用新的说话人匿名方法来提取语言和说话人身份特征，使用神经声学和波形模型来合成匿名的语音可以有效掩盖说话人身份，同时保持高质量的匿名语音。

May, 2019

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

Wav2Pix: 使用生成式对抗网络进行语音条件下的人脸生成

本文中，我们探索了使用原始语音信号通过条件生成对抗网络（GAN）生成说话人的面部图像的潜力。我们使用自监督方法构建模型，同时利用自然对齐的音频和视觉信号，训练出一种从头开始生成面部图像的深度神经网络，没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练，其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。

Mar, 2019