使用 X - 向量和神经波形模型进行说话者匿名化
本文针对 VoicePrivacy Challenge 设计了一种基于 x-vector 的柔性伪说话人选择技术,并探索了多种设计选择以评估它的匿名化和实用性,同时使用 LibriSpeech 数据集进行实验,报告了匿名数据的 Equal Error Rate(EER)和解码 Word Error Rate(WER)。
May, 2020
本研究通过使用向量量化技术,加强从声学模型中提取特征时的内容和说话人信息的分离,从而改进说话人匿名化技术,并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。
Aug, 2022
本文研究声音匿名化技术,重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法,采用包含说话人解缠机制的语音生成框架生成匿名语音,并通过对说话人嵌入进行对抗扰动改变说话人特征,同时通过控制扰动强度保留人类感知。实验结果表明,在 LibriSpeech 数据集上处理的 utterances 中,60.71%的处理结果达到了说话人特征的匿名化且保留了人类感知。
Jun, 2024
本文考察了基于语音转换的匿名化方法,在三种攻击情景中比较了两种基于频率扭曲的转换方法和一种基于深度学习的方法,结果表明语音转换方案不能有效地防止具有广泛知识的攻击者,但可能为不太熟悉的攻击者提供一定的保护。
Nov, 2019
本文研究了基于 X-Vector 的说话人匿名化方法,探讨了其匿名化本质和虚拟说话人 X-Vector 特征之间的不匹配现象,提出了一种针对声码器漂移进行补偿的新方法。该方法在降低声码器漂移的同时提升了对 X-Vector 特征的更精细控制,为未来匿名化方法的改进打下了基础。
Jul, 2023
本研究基于 VoicePrivacy 2020 挑战,目的在于对语音进行偏执匿名化,使其不可辨认的同时保持可理解性。通过改变基频等次要语音特征进行偏执匿名化可以取得更好的效果,且源和目标说话者的性别也会影响效果。
Jan, 2021
本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法,将其整合到语音转文字转语音的流程中,成功实现保护隐私的同时保持较高的效能表现。
Oct, 2022
该论文讨论了语音用户界面的增长,以及由此带来的语音数据收集和存储问题。研究提出了匿名化语音和度量匿名程度的解决方案,并介绍了评估协议需要考虑的挑战,最后探讨了一种新的攻击方法以逆转匿名化。
Aug, 2023
提出了一种流式模型来实现低延迟的说话人匿名化,通过使用轻量级内容编码器、预训练的说话人编码器和变化编码器,将语音信息解耦为语音内容、说话人身份和音调能量信息,并通过解码器重新合成语音信号,该模型实现了 230ms 的延迟,并在自然性、可理解性和隐私保护方面保持了最先进的性能。
Jun, 2024