理解共享的语音文本表示

Apr, 2023

Understanding Shared Speech-Text Representations

Gary Wang, Kyle Kastner, Ankur Bapna, Zhehuai Chen, Andrew Rosenberg...

TL;DR本文研究基于端到端模型训练语音模型的近期方法进展，通过两种分析方法进一步扩展了对共享语音文本表示的理解：第一是研究了自由领域适应的极限，在此基础上发现针对语音文本对齐的时长模型是最重要的，这有助于学习共享语音文本表示；第二是比较了单一（语音或文本）编码器和共享编码器的激活相似性，发现共享编码器能够学习到更紧凑重叠的语音文本表示，这也是 Maestro 共享语音文本表示性能优异的部分原因。

Abstract

Recently, a number of approaches to train speech models by incorpo-rating text into end-to-end models have been developed, with Mae-stro advancing state-of-the-art automatic speech recognition (ASR)and Speech Tra

end-to-end models automatic speech recognition speech-text representation shared encoder domain adaptation

发现论文，激发创造

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

MAESTRO: 通过模态匹配匹配语音文本表示

Maestro 是一个自我监督的训练方法，以统一从语音和文本模态中学到的表示。该算法通过序列对齐，持续预测和匹配来学习统一的表示，以用于自动语音识别（ASR）和语音翻译（ST）等下游实验。

Apr, 2022

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021