本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021
本文介绍了一个大规模的音频 - 视觉说话人识别数据集,用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份,并展示出比以前的成果更高的性能表现。
Jun, 2018
本文通过 VoxCeleb 说话人识别挑战的案例,深入实证研究和分析机器学习的发展过程中的偏差问题,发现每个开发阶段都存在偏差,建议采取实践性措施和未来研究方向以缓解这一问题。
Jan, 2022
该研究提出了一种基于强化学习的机器学习框架,用于实时的多扬声器识别和分割,并能应对有限的训练数据和分布环境的挑战。
Feb, 2023
本文介绍了语音表征学习的不同技术的最新综述,将分散的研究汇集到了自动语音识别、说话人识别和说话人情感识别三个研究领域中,并弥补了以前综述中没有涉及语音表征学习的空白。
Jan, 2020
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
Aug, 2020
本研究使用深度神经网络(DNN)学习特征表示和亚音素后验概率,证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低,以及在 NIST 2011 语音识别评估测试中,在 30 秒测试条件下取得 48% 的 EER 降低。
Apr, 2015
本文对近年来基于深度学习的监督式语音分离算法进行了全面的综述,包括语音增强、讲话人分离、去混响以及多麦克风技术,并重点讨论监督学习中独特的泛化问题。
Aug, 2017
本文提出了第一种实时、通用且强健的对抗攻击方案,能通过在任意用户的语音输入上添加通用扰动,在线进行万能识别。同时,利用房间脉冲响应 (RIR) 对声音失真进行建模,提高攻击的鲁棒性。在公共数据集上的实验表明,这种攻击的成功率高达 90% 以上,并且攻击速度比当代非通用攻击快 100 倍。
Mar, 2020