ASTRA：无需采样的 ASR 语音和文本表示对齐

Jun, 2024

ASTRA：无需采样的 ASR 语音和文本表示对齐

ASTRA: Aligning Speech and Text Representations for Asr without Sampling

Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg...

TL;DR该论文介绍了 ASTRA，一种通过文本注入来改进自动语音识别（ASR）的新方法，它消除了在语音和文本模态之间匹配序列长度时采样的需要，并利用 CTC/RNNT 模型内部学习到的固有对齐性。这种方法有两个优点，即避免由上采样导致的语音和文本特征之间潜在的对齐问题，以及消除模型准确预测子词标记持续时间的需求。该新颖的模态（长度）匹配公式将加权的 RNNT 目标与基于持续时间方法在 FLEURS 基准测试上的最新技术性能相匹配，同时开辟了语音处理领域的其他研究方向。

Abstract

This paper introduces astra, a novel method for improving Automatic Speech Recognition (ASR) through text injection.Unlike prevailing techniques,

astra automatic speech recognition text injection ctc/rnnt models modality matching

发现论文，激发创造

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

A$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练

该研究提出了一种名为 A³T 的框架，通过将文本输入与声学 - 文本对齐结合，训练出预训练模型来生成高质量的重构语谱图，以实现有声编辑和无外部说话人验证模型的多说话人语音合成。

Mar, 2022

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021

神经背景性偏倚的文本插入

通过上下文中注入文本的方式，使用大规模未配对的文本来优化自动语音识别（ASR）模型及其偏置成分，提高重要短语的识别准确率。实验证明，使用 1000 亿个文本句子进行 CTI，相对于强大的神经偏置模型，可以实现高达 43.3% 的相对词错误率的降低。CTI-MWER 进一步提供了 23.5% 的相对改进。

Jun, 2024

一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别

本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer（CASS-NAT）方法，用于自动语音识别，通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度，实现了自监督学习，提出了多个训练策略来改善单词错误率（WER）表现，并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配，实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER，同时提供了～24 倍的推理加速，并且未经过语言模型的情况下，实现了新的最高效果。

Apr, 2023

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

ASR 纠错和语言理解的联合上下文建模

该研究提出了一种多任务神经网络方法，通过对话系统中的语音识别输出进行上下文语言纠正和语言理解以改善两个任务的性能，从而提高自动语音识别的质量。

Jan, 2020