通往语言通用的端到端语音识别

Nov, 2017

Towards Language-Universal End-to-End Speech Recognition

Suyoun Kim, Michael L. Seltzer

TL;DR利用最新的端到端语音识别技术，我们提出一种使用通用字符集和网络内自适应机制的多语音种语音识别系统，其可优于单一多语种或多任务学习方法，并可用于代码转换场景。

Abstract

Building speech recognizers in multiple languages typically involves replicating a monolingual training recipe for each language, or utilizing a multi-task learning approach where models for different languages have separate output labels but share some internal parameters. In this work, we exploit recent progress in →

multilingual speech recognition end-to-end universal character set gating mechanism code-switching

发现论文，激发创造

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

Deep Speech 2: 英语和普通话端到端语音识别

本文介绍了一种利用端到端深度学习的方法来识别英语或普通话的说话人。采用神经网络代替人工处理的模块可以更好地处理各种各样的语音，包括嘈杂的环境、口音和不同的语言，并通过 HPC 技术加速算法，从而提供了更快捷的实验迭代方式，并通过数据中心的 GPU 技术，能够成本低廉地在线发布系统。在标准数据集上的实验结果表明，我们的系统在多个任务上与人类工作人员的转录性能相当。

Dec, 2015

多说话人语音识别的纯端到端系统

本文提出了一种新的序列到序列的框架，即多说话者语音识别，通过端到端的方式将源分离和语音识别功能统一处理，同时提出了一种新的目标函数来提高隐藏向量间的对比度，实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射，与之前的显式分离和识别模块的端对端工作相比，取得了 83.1% 的相对改进。

May, 2018

多语言同声传译

研究了一种在会议或会谈中进行同时语音翻译的应用程序，并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明，相似的潜在优势。

Mar, 2022

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

使用多个 softmax 上的注意力的流式双语端到端自动语音识别模型

本文介绍了一种新颖的双语端到端模型，通过共享编码器和预测网络，并通过自注意机制组合语言特定的联合网络，实现了单一神经模型对多种语言的识别和支持语言之间的动态切换，相比传统双语基线模型，该方法在印地语、英语和混合代码测试集上分别降低了 13.3%、8.23% 和 1.3% 的词误差率。

Jan, 2024

用于在线端到端语音识别系统的改进训练

提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基线系统，通过所提出的方法，可以使错误率相对下降了 19%。

Nov, 2017

评估跨语言转移学习方法在多语言对话代理模型中的应用

本文研究提出了一种通用多语言模型的框架，该框架利用深度学习架构实现语音助手设备的自然语言理解，显著减少了单独开发每种语言模型所需要的努力和维护成本，并在多语种环境下取得了比单语种环境下更好的研究成果。

Dec, 2020