跨时延神经网络用于说话人识别
本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型,可在语音辨识方面取得显著的效果,同时减少了参数和复杂性。
Mar, 2023
本文研究使用卷积时延深度神经网络结构(CT-DNN)来学习说话人特征,实验结果表明 CT-DNN 可以产生高质量的说话人特征,即使使用单一特征(包括上下文的 0.3 秒),错误拒识率亦可低至 7.68%。
May, 2017
本文介绍了 StutterNet,一种新颖的基于深度学习的口吃检测方法,仅依赖于声学信号,使用适用于捕获失聚言语语境方面的时延神经网络,并在包含 100 多个说话者的 UCLASS 口吃数据集上验证,结果表明该方法优于现有方法,参数少并且性能良好。
May, 2021
本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构,利用此架构改进了当前流行的 X-Vector 神经网络架构,显著提高了说话人识别性能。
May, 2020
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
本研究提出了多尺度频道注意力机制(MFA),其采用新颖的双通道设计,即卷积神经网络和时延神经网络,可用于对不同尺度的讲话者进行表征,并在短语态测试语句下表现出优异的成绩,其在 VoxCeleb 数据库上表现出最先进的性能,同时减少了参数和计算复杂度。
Feb, 2022
本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统,通过优化核心架构,高效的波束搜索解码器以及提升性能指标的分析,系统吞吐量提高 3 倍,延迟降低同时保持更好的词语误差率。
Jan, 2020
本研究提出了一种快速、轻量级的模型 LightCAM,它采用了深度可分离卷积模块 (DSM) 和多尺度特征聚合 (MFA) 技术,在 VoxCeleb 数据集上进行了广泛实验,结果显示在 VoxCeleb1-O 中,它实现了 0.83 的等错误率 (EER) 和 0.0891 的最小检测费用 (MinDCF),优于其他主流的说话者验证方法,并且复杂性分析表明所提出的架构具有较低的计算成本和更快的推理速度。
Feb, 2024
本文提出了一种新的视觉结构,称为 Temporal Difference Network (TDN),其核心是通过一个高效的 Temporal Difference Module (TDM) 来捕获多尺度信息,以提高动作识别的效率。在 Something-Something V1&V2 数据集上,TDN 呈现了一个新的最高水平,并且与 Kinetics-400 数据集上的最佳性能持平,同时我们还对 TDN 进行了深入的消融研究和可视化结果的绘制,为时序差分建模提供了全面的分析。
Dec, 2020
本研究使用深度神经网络(DNN)学习特征表示和亚音素后验概率,证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低,以及在 NIST 2011 语音识别评估测试中,在 30 秒测试条件下取得 48% 的 EER 降低。
Apr, 2015