基于注意力神经网络的目标说话人分离
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
该研究致力于开发一种自动非侵入式系统,用于预测语音可懂度水平,研究结果显示采用长期短期记忆(LSTM)网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制,能够确定任务中更为相关的帧,从而优于基于支持向量机(SVM)和手工特征、基于均值池化的 LSTM 系统。
Feb, 2024
深度神经网络在说话者识别和相关任务中显示出令人印象深刻的结果,然而对于这些结果到底是由什么因素造成的,我们对此仍知之甚少。本文提出并应用了一种新的测试方法,以量化最先进的神经网络在说话者识别中对超分段时间信息建模程度的解释,并且提出了几种强制相应网络更加关注超分段时间信息的手段,评估它们的优点。研究发现,尽管被强制要求,用于说话者识别的多种基于卷积神经网络和循环神经网络的架构并未足够地对超分段时间信息进行建模。这些结果为今后更好地利用完整语音信号的研究提供了重要基础,并揭示了这些网络的内部工作原理,增强了深度学习在语音技术中可解释性的理解。
Nov, 2023
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本文提出了一种基于 U-Net 的注意力模型 ——U-Net$_{At}$,用于增强深度神经网络(DNN)语音识别系统中的对抗性信号,并通过可解释的语音识别度量评估模型性能,并探讨在对抗训练下的模型性能,在对抗性语音示例的语音增强任务中,我们的实验表明,提出的 U-Net$_{At}$ 可将语音质量感知评估(PESQ)从 1.13 提高到 2.78,语音传输指数(STI)从 0.65 提高到 0.75,短期客观清晰度(STOI)从 0.83 提高到 0.96,我们还在带有对抗性音频攻击的自动语音识别(ASR)任务上进行了实验,发现(i)注意力网络学习的时间特征能够提高 DNN 基于 ASR 模型的鲁棒性;(ii)通过应用带有加性对抗性数据增强的对抗性训练,可以增强 DNN 基于 ASR 模型的泛化能力,单词错误率(WERs)上的 ASR 指标显示,在基于梯度的扰动下有绝对 2.22%的减少,在经过进化优化的扰动下有绝对 2.03%的减少,这表明我们的增强模型与对抗性训练可以进一步确保弹性 ASR 系统的安全性。
Mar, 2020
本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型,通过加入通道注意力块和使用 focal loss 函数,我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本,实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64%的等误差率和 0.0187 的 min-tDCF,超过了当前最先进系统。
Sep, 2022
该论文介绍了一个带有 Luong 注意力机制的序列到序列模型,描述了各种神经网络算法,证明了在 TIMIT 数据集上实现了 15.8% 的音素误差率的有效性。
Oct, 2017
本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果,提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法,通过在 Voice Bank+DEMAND 数据集上的实验验证,证明了该方法的有效性并在 DNS Challenge 数据集上表现出色,同时也开源了低延迟版本的 TasNet 算法。
May, 2020
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023