一种语言不可知的多语言流式本地化 ASR 系统

Aug, 2022

一种语言不可知的多语言流式本地化 ASR 系统

A Language Agnostic Multilingual Streaming On-Device ASR System

Bo Li, Tara N. Sainath, Ruoming Pang, Shuo-yiin Chang, Qiumin Xu...

TL;DR本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Abstract

on-device end-to-end (E2E) models have shown improvements over a conventional model on English Voice Search tasks in both quality and latency. E2E models have also shown promising results for →

on-device end-to-end multilingual automatic speech recognition streaming

发现论文，激发创造

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018

使用多个 softmax 上的注意力的流式双语端到端自动语音识别模型

本文介绍了一种新颖的双语端到端模型，通过共享编码器和预测网络，并通过自注意机制组合语言特定的联合网络，实现了单一神经模型对多种语言的识别和支持语言之间的动态切换，相比传统双语基线模型，该方法在印地语、英语和混合代码测试集上分别降低了 13.3%、8.23% 和 1.3% 的词误差率。

Jan, 2024

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023