基于深度学习的说话人识别综述

Dec, 2020

Speaker Recognition Based on Deep Learning: An Overview

Zhongxin Bai, Xiao-Lei Zhang

TL;DR本文综述了说话人识别的几个主要子任务，包括说话人验证、识别、日程管理和鲁棒的说话人识别，着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别，以及领域适应和语音增强等方面的最新研究进展。

Abstract

speaker recognition is a task of identifying persons from their voices. Recently, deep learning has dramatically revolutionized speaker recogniti

speaker recognition deep learning speaker feature extraction speaker diarization robust speaker recognition

发现论文，激发创造

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

自动说话人识别中的偏差

本文通过 VoxCeleb 说话人识别挑战的案例，深入实证研究和分析机器学习的发展过程中的偏差问题，发现每个开发阶段都存在偏差，建议采取实践性措施和未来研究方向以缓解这一问题。

Jan, 2022

一种用于在线发言人分离的强化学习框架

该研究提出了一种基于强化学习的机器学习框架，用于实时的多扬声器识别和分割，并能应对有限的训练数据和分布环境的挑战。

Feb, 2023

演讲处理中的深度表示学习：挑战、最新进展和未来趋势

本文介绍了语音表征学习的不同技术的最新综述，将分散的研究汇集到了自动语音识别、说话人识别和说话人情感识别三个研究领域中，并弥补了以前综述中没有涉及语音表征学习的空白。

Jan, 2020

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015

基于深度学习的语音分离监督方法概述

本文对近年来基于深度学习的监督式语音分离算法进行了全面的综述，包括语音增强、讲话人分离、去混响以及多麦克风技术，并重点讨论监督学习中独特的泛化问题。

Aug, 2017

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020