通过下采样声学表示进行端到端语音识别的纯文本领域自适应

Sep, 2023

通过下采样声学表示进行端到端语音识别的纯文本领域自适应

Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation

Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu...

TL;DR本研究旨在通过引入一个连续的整合 - 发火 (CIF) 模块，从而实现将语音和文本这两种形式的信息映射到共享表示空间，以提高自动语音识别 (ASR) 在新领域中的性能。通过将一个具有一致语音标记长度的 CIF 模块与基于文本的 ASR 模型相结合，我们成功实现了统一的双模态表示学习，从而允许使用目标领域的纯文本数据进行域适应。实验结果表明了该方法在新领域数据上的有效性。

Abstract

Mapping two modalities, speech and text, into a shared representation space, is a research topic of using text-only data to improve end-to-end automatic speech recognition (ASR) performance in new domains. Howeve

automatic speech recognition end-to-end shared representation acoustic representation domain adaptation

发现论文，激发创造

在转换器中使用统一的语音 - 文本表示进行仅限于文本的域自适应

本研究提出了一种方法 —— 学习统一的语音文本表示，在端到端的语音识别中实现快速适应，该方法可以使用文本语料库进行域自适应，同时还可以改善适应的效率，并与内部语言模型估计相结合，进一步提高性能。

Jun, 2023

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

使用整合的文本 - 梅尔频谱生成器进行端到端语音识别的纯文本领域自适应

这篇论文提出了一个端到端的自动语音识别系统，可以使用带有转录的语音数据、纯文本数据或两者的混合数据进行训练。该系统通过使用文本数据可显著提高在不同领域的 ASR 模型的准确性，在扩展 ASR 模型中引入 TTS 块从而创建梅尔频谱图，该块包含了一个非自回归的文本生成模型以及 GAN 增强器来提高模型性能。

Feb, 2023

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

理解共享的语音文本表示

本文研究基于端到端模型训练语音模型的近期方法进展，通过两种分析方法进一步扩展了对共享语音文本表示的理解：第一是研究了自由领域适应的极限，在此基础上发现针对语音文本对齐的时长模型是最重要的，这有助于学习共享语音文本表示；第二是比较了单一（语音或文本）编码器和共享编码器的激活相似性，发现共享编码器能够学习到更紧凑重叠的语音文本表示，这也是 Maestro 共享语音文本表示性能优异的部分原因。

Apr, 2023

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

文本独立取证发言人识别的多源领域自适应

本研究提出了基于领域对抗训练、差异最小化和矩匹配方法的三种新的自适应方法，以在多个声学领域中进一步提高自适应性能。实验表明，多种声学环境确实会影响讲话者识别性能，并且领域对抗训练、差异最小化和矩匹配自适应都能在多个声学领域中同时实现有效性能。

Nov, 2022

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

CIF-PT：通过连续的集成和火预训练将语音和文本表示桥接到口语语言理解中

提出了一种名为 CIF-PT 的新的预训练范式，通过连续整合与火预训练 (CIF) 来弥合语音和文本之间的表示，其在语音理解任务中的表现优于最新的模型，交叉模态表示的性能也更好。

May, 2023