低延迟语音匿名化端到端流模型
本文研究声音匿名化技术,重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法,采用包含说话人解缠机制的语音生成框架生成匿名语音,并通过对说话人嵌入进行对抗扰动改变说话人特征,同时通过控制扰动强度保留人类感知。实验结果表明,在 LibriSpeech 数据集上处理的 utterances 中,60.71%的处理结果达到了说话人特征的匿名化且保留了人类感知。
Jun, 2024
提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。
Mar, 2022
研究表明,使用新的说话人匿名方法来提取语言和说话人身份特征,使用神经声学和波形模型来合成匿名的语音可以有效掩盖说话人身份,同时保持高质量的匿名语音。
May, 2019
本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法,将其整合到语音转文字转语音的流程中,成功实现保护隐私的同时保持较高的效能表现。
Oct, 2022
本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题,提出了三种延迟降低技术,包括使用单向注意力机制,实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER(相对于离线转换)。同时还探讨了其在低延迟语音翻译上的应用。
May, 2020
本文提出了一种支持流式多语言的端到端自动语音识别的模型,通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer,以及使用了更高效的 Embedding 解码器,实现了低延迟和高质量的效果,可以在移动设备上实时运行。
Aug, 2022
本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型,通过利用隐藏层分离技术,将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息,从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡,引入了一种新的模型预训练机制,即联合对抗训练,以进一步增强用户隐私。实验证明,该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平,同时对口语理解性能影响较小。
Mar, 2024
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法,其中包含了一个侦察网络和一个识别网络,该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。
Mar, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020