JOIST：一种联合语音和文本流模型用于自动语音识别

Oct, 2022

JOIST：一种联合语音和文本流模型用于自动语音识别

JOIST: A Joint Speech and Text Streaming Model For ASR

Tara N. Sainath, Rohit Prabhavalkar, Ankur Bapna, Yu Zhang, Zhouyuan Huo...

TL;DR我们提出 JOIST 算法，使用音频文本配对输入和仅文本未配对输入训练流式级联编码器端到端模型。与以往的工作不同，我们探索了同时训练两种模态的联合训练方法，而不是预训练和微调。此外，我们使用了一种流式端到端模型，并增加了一个数量级的数据量，这些都是与以往工作相比的新颖之处。通过一系列去除研究，我们研究了不同类型的文本建模，包括如何建模文本序列的长度和适当的文本子单词单元表示。我们发现，与未训练文本的模型相比，针对 JOIST 的最佳文本表示方式可以相对提高 4-14% 的 WER，而且我们定量显示 JOIST 仍然具备流式处理的能力，这对用户体验很重要。

Abstract

We present joist, an algorithm to train a streaming, cascaded, encoder end-to-end (E2E) model with both →

joist algorithm encoder model speech-text streaming

发现论文，激发创造

JEIT: 语音识别的联合端到端模型和内部语言模型训练

提出了一种使用大规模非配对文本来改善说话者对罕见单词的识别能力的训练方法 JEIT，它结合了端到端模型和内部语言模型训练，其中内部语言模型吸收非配对文本，接受 E2E 计算损失信息，从而提高 E2E 模型的性能。在 JEIT 过程中，MHAT 表现比 HAT 更佳，在 ILM 适应时更加稳定，此外，我们还提出了结合 JEIT 和 JOIST 的 CJJT 方法，它能更有效地实现语言模型的融合。

Feb, 2023

流式语音识别的 Transformer 修正器的联合音频 / 文本训练

本研究提供了一种联合音频 / 文本训练方法，以降低配对音频 - 文本数据的代价，并减少了模型参数和延迟，同时在 Librispeech 数据库和内部数据库上显着提高了单词错误率的 Transformer Rescorer。

Oct, 2022

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023