改进不需要对齐的联合语音文本表示

Aug, 2023

改进不需要对齐的联合语音文本表示

Improving Joint Speech-Text Representations Without Alignment

Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg...

TL;DR通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Abstract

The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this i

text-prompted image generation cross-modal representation space joint speech-text encoders sequence-length mismatch consistency losses

发现论文，激发创造

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

理解共享的语音文本表示

本文研究基于端到端模型训练语音模型的近期方法进展，通过两种分析方法进一步扩展了对共享语音文本表示的理解：第一是研究了自由领域适应的极限，在此基础上发现针对语音文本对齐的时长模型是最重要的，这有助于学习共享语音文本表示；第二是比较了单一（语音或文本）编码器和共享编码器的激活相似性，发现共享编码器能够学习到更紧凑重叠的语音文本表示，这也是 Maestro 共享语音文本表示性能优异的部分原因。

Apr, 2023

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

通过下采样声学表示进行端到端语音识别的纯文本领域自适应

本研究旨在通过引入一个连续的整合 - 发火 (CIF) 模块，从而实现将语音和文本这两种形式的信息映射到共享表示空间，以提高自动语音识别 (ASR) 在新领域中的性能。通过将一个具有一致语音标记长度的 CIF 模块与基于文本的 ASR 模型相结合，我们成功实现了统一的双模态表示学习，从而允许使用目标领域的纯文本数据进行域适应。实验结果表明了该方法在新领域数据上的有效性。

Sep, 2023

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

面向语音单元和文本的联合语言建模

探索联合的语言建模方法，比较不同语音分词方法和语音 - 文本混合数据构建方法，通过自动指标评估联合语言模型的混合效果，在不同模态下对下游口语理解任务进行微调并测试其性能，结果表明通过混合我们提出的语音单元和文本的方法，联合语言模型在口语理解任务上超过了单独语音的基准模型，并显示出跨模态的零 - shot 传递能力。

Oct, 2023