跨时延神经网络用于说话人识别

MMMay, 2020

Crossed-Time Delay Neural Network for Speaker Recognition

Liang Chen, Yanchun Liang, Xiaohu Shi, You Zhou, Chunguo Wu

TL;DR本研究提出交叉时延神经网络（CTDNN）结构来提高当前 TDNN 的性能，用于说话人识别系统中。CTDNN 在许多任务中提供了比原始 TDNN 更显着的改进，如说话人验证和识别任务，尤其在某些情况下将识别精度提高了一倍以上，此外，CTDNN 还能够更好地处理更大批次的训练数据，并在较短的训练时间内更好地利用计算资源。

Abstract

time delay neural network (TDNN) is a well-performing structure for DNN-based speaker recognition systems. In this paper we introduce a novel structure Crossed-→

time delay neural network speaker recognition ctdnn multilayer parallel network identification accuracy

发现论文，激发创造

动态全局滤波器双流时间延迟神经网络在说话人验证中的应用

本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型，可在语音辨识方面取得显著的效果，同时减少了参数和复杂性。

Mar, 2023

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

StutterNet: 使用时间延迟神经网络进行口吃检测

本文介绍了 StutterNet，一种新颖的基于深度学习的口吃检测方法，仅依赖于声学信号，使用适用于捕获失聚言语语境方面的时延神经网络，并在包含 100 多个说话者的 UCLASS 口吃数据集上验证，结果表明该方法优于现有方法，参数少并且性能良好。

May, 2021

基于 TDNN 的说话人验证中的强调通道关注和传递聚合 (ECAPA-TDNN)

本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构，利用此架构改进了当前流行的 X-Vector 神经网络架构，显著提高了说话人识别性能。

May, 2020

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

短语音检测的文本无关说话人验证中多尺度频率通道注意力的 TDNN

本研究提出了多尺度频道注意力机制（MFA），其采用新颖的双通道设计，即卷积神经网络和时延神经网络，可用于对不同尺度的讲话者进行表征，并在短语态测试语句下表现出优异的成绩，其在 VoxCeleb 数据库上表现出最先进的性能，同时减少了参数和计算复杂度。

Feb, 2022

使用卷积神经网络扩展在线语音识别能力

本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统，通过优化核心架构，高效的波束搜索解码器以及提升性能指标的分析，系统吞吐量提高 3 倍，延迟降低同时保持更好的词语误差率。

Jan, 2020

LightCAM: D-Tdnn 语者验证的快速轻量级上下文感知遮蔽算法实现

本研究提出了一种快速、轻量级的模型 LightCAM，它采用了深度可分离卷积模块 (DSM) 和多尺度特征聚合 (MFA) 技术，在 VoxCeleb 数据集上进行了广泛实验，结果显示在 VoxCeleb1-O 中，它实现了 0.83 的等错误率 (EER) 和 0.0891 的最小检测费用 (MinDCF)，优于其他主流的说话者验证方法，并且复杂性分析表明所提出的架构具有较低的计算成本和更快的推理速度。

Feb, 2024

TDN：高效行为识别的时序差分网络

本文提出了一种新的视觉结构，称为 Temporal Difference Network (TDN)，其核心是通过一个高效的 Temporal Difference Module (TDM) 来捕获多尺度信息，以提高动作识别的效率。在 Something-Something V1＆V2 数据集上，TDN 呈现了一个新的最高水平，并且与 Kinetics-400 数据集上的最佳性能持平，同时我们还对 TDN 进行了深入的消融研究和可视化结果的绘制，为时序差分建模提供了全面的分析。

Dec, 2020

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015