通往语言通用的端到端语音识别
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本文介绍了一种利用端到端深度学习的方法来识别英语或普通话的说话人。采用神经网络代替人工处理的模块可以更好地处理各种各样的语音,包括嘈杂的环境、口音和不同的语言,并通过 HPC 技术加速算法,从而提供了更快捷的实验迭代方式,并通过数据中心的 GPU 技术,能够成本低廉地在线发布系统。在标准数据集上的实验结果表明,我们的系统在多个任务上与人类工作人员的转录性能相当。
Dec, 2015
本文提出了一种新的序列到序列的框架,即多说话者语音识别,通过端到端的方式将源分离和语音识别功能统一处理,同时提出了一种新的目标函数来提高隐藏向量间的对比度,实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射,与之前的显式分离和识别模块的端对端工作相比,取得了 83.1% 的相对改进。
May, 2018
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在优势。
Mar, 2022
本研究提出一种基于使用原生语言(西班牙语和印度语)预训练的端到端循环神经网络多任务学习模型,成功实现对英语口音的识别,相比于其他训练方法,此方法在减小语音中字符错误率方面表现更加优异。
Apr, 2019
本文介绍了一种新颖的双语端到端模型,通过共享编码器和预测网络,并通过自注意机制组合语言特定的联合网络,实现了单一神经模型对多种语言的识别和支持语言之间的动态切换,相比传统双语基线模型,该方法在印地语、英语和混合代码测试集上分别降低了 13.3%、8.23% 和 1.3% 的词误差率。
Jan, 2024
提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略,用以提高在线语音识别的准确性,并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中,相比随机初始化基线系统,通过所提出的方法,可以使错误率相对下降了 19%。
Nov, 2017
本文研究提出了一种通用多语言模型的框架,该框架利用深度学习架构实现语音助手设备的自然语言理解,显著减少了单独开发每种语言模型所需要的努力和维护成本,并在多语种环境下取得了比单语种环境下更好的研究成果。
Dec, 2020