本研究论文扩展了端到端的框架,以包含麦克风阵列信号处理以进行噪声抑制和语音增强,并能够共同优化束形成和识别架构。实验结果表明,我们的多通道端到端系统在去噪和语音增强任务上表现更好。
Mar, 2017
本研究提出了一种基于改进的注意力机制加上位置感知的模型,解决了长输入音频识别中的问题并且有效降低了音素错误率。
Jun, 2015
我们提出了一种统一的多通道远场语音识别系统,结合了神经波束成形和基于 Transformer 的 Listen,Spell,Attend(LAS)语音识别系统,进一步扩展了端到端语音识别系统以包含语音增强,并通过共同训练来优化最终目标。
Jan, 2024
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了 Bahdanau 等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
当前的多通道语音增强算法通常假设声源是固定的,这与现实不符,限制了它们在实际场景中的性能。本文聚焦于为动态环境设计的基于注意力的空间滤波技术。具体地,我们研究了线性和非线性注意力方法在估计时变空间协方差矩阵以设计滤波器时的应用。我们还研究了通过注意力方法直接估计空间滤波器,而无需明确估计空间统计数据。使用 WSJ0 中的干净语音片段模拟在混响环境中移动发声者的语音信号生成实验数据集,其中混合了 CHiME-3 中的多通道真实噪声。评估结果表明,基于注意力的方法在静态和动态声音环境中均表现出鲁棒性,并始终优于传统的空间滤波方法。
Dec, 2023
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
该论文提出了一种利用音频和文本信息的语音情感分类方法,使用双向 LSTM 和多跳注意力机制,在 IEMOCAP 数据集上,相对于现有技术,其在加权准确率上提高了 6.5% 的性能。
Apr, 2019
本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题,相比于 LSTM 模型,该模型不仅运算时间更快,而且更具可解释性。
Mar, 2018
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
本文介绍了一个使用卷积循环神经网络与注意力机制的语音指令识别模型,其创造了 94.1%(V1)和 94.5%(V2)的分类准确率,是同类模型中的新记录,并且该模型仅有 202K 个可以训练的参数,同时其提出的注意力机制不仅提高了性能,还允许可视化网络处理输入音频时所参考的区域。
Aug, 2018