基于深度学习的声学模型最新进展(更新)
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文分析了基于卷积和循环层、使用连结时序分类(CTC)损失函数训练的深度端到端模型所学习的语音表示,并评估模型不同层次的表示在预测电话标签方面的质量,以此为基础探讨了端到端模型的重要方面和设计选择。
Sep, 2017
本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型,结合了深度神经网络和双向长短期记忆网络,在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。
Apr, 2015
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本论文提出了一种基于深度学习的方法,结合了文本和音频数据进行情绪分类,使用 SincNet 层提取音频特征,同时使用双向 RNN 和深度卷积神经网络提取文本特征,通过交叉注意力机制融合两种特征,在 IEMOCAP 数据集上取得了比现有方法更好的性能。
Sep, 2020
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021