低延迟语音匿名化端到端流模型

Jun, 2024

End-to-end Streaming model for Low-Latency Speech Anonymization

Waris Quamer, Ricardo Gutierrez-Osuna

TL;DR提出了一种流式模型来实现低延迟的说话人匿名化，通过使用轻量级内容编码器、预训练的说话人编码器和变化编码器，将语音信息解耦为语音内容、说话人身份和音调能量信息，并通过解码器重新合成语音信号，该模型实现了 230ms 的延迟，并在自然性、可理解性和隐私保护方面保持了最先进的性能。

Abstract

speaker anonymization aims to conceal cues to speaker identity while preserving linguistic content. Current machine learning based approaches require substantial computational resources, hindering real-time streaming applications. To address these concerns, we propose a →

speaker anonymization streaming model low latency end-to-end autoencoder privacy preservation

发现论文，激发创造

基于对说话人嵌入进行对抗扰动的异步语音匿名化

本文研究声音匿名化技术，重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法，采用包含说话人解缠机制的语音生成框架生成匿名语音，并通过对说话人嵌入进行对抗扰动改变说话人特征，同时通过控制扰动强度保留人类感知。实验结果表明，在 LibriSpeech 数据集上处理的 utterances 中，60.71％的处理结果达到了说话人特征的匿名化且保留了人类感知。

Jun, 2024

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

使用 X - 向量和神经波形模型进行说话者匿名化

研究表明，使用新的说话人匿名方法来提取语言和说话人身份特征，使用神经声学和波形模型来合成匿名的语音可以有效掩盖说话人身份，同时保持高质量的匿名语音。

May, 2019

使用生成对抗网络实现语音匿名化，以保护说话人隐私

本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法，将其整合到语音转文字转语音的流程中，成功实现保护隐私的同时保持较高的效能表现。

Oct, 2022

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020

一种语言不可知的多语言流式本地化 ASR 系统

本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Aug, 2022

隐私保护的端到端口语言理解

本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型，通过利用隐藏层分离技术，将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息，从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡，引入了一种新的模型预训练机制，即联合对抗训练，以进一步增强用户隐私。实验证明，该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平，同时对口语理解性能影响较小。

Mar, 2024

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

使用 Scout 网络的低延迟端对端流式语音识别

本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法，其中包含了一个侦察网络和一个识别网络，该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。

Mar, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020