A$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练

ICMLMar, 2022

A$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练

A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing

He Bai, Renjie Zheng, Junkun Chen, Xintong Li, Mingbo Ma...

TL;DR该研究提出了一种名为 A³T 的框架，通过将文本输入与声学 - 文本对齐结合，训练出预训练模型来生成高质量的重构语谱图，以实现有声编辑和无外部说话人验证模型的多说话人语音合成。

Abstract

Recently, speech representation learning has improved many speech-related tasks such as speech recognition, speech classification, and speech-to-text translation. However, all the above tasks are in the direction of speech understanding, but for the inverse direction, →

speech representation learning speech synthesis alignment-aware acoustic-text pretraining spectrogram multi-speaker speech synthesis

发现论文，激发创造

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

ASTRA：无需采样的 ASR 语音和文本表示对齐

该论文介绍了 ASTRA，一种通过文本注入来改进自动语音识别（ASR）的新方法，它消除了在语音和文本模态之间匹配序列长度时采样的需要，并利用 CTC/RNNT 模型内部学习到的固有对齐性。这种方法有两个优点，即避免由上采样导致的语音和文本特征之间潜在的对齐问题，以及消除模型准确预测子词标记持续时间的需求。该新颖的模态（长度）匹配公式将加权的 RNNT 目标与基于持续时间方法在 FLEURS 基准测试上的最新技术性能相匹配，同时开辟了语音处理领域的其他研究方向。

Jun, 2024

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

融合声音和文本编码的多模式双语预训练和语音翻译

提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库（包括用于语音识别和机器翻译的并行数据、纯语音和文本数据）联合学习了一个统一的音频和文本输入表示，从而用于跨模态的表示学习，为 Fused Acoustic and Text Speech Translation (FAT-ST) 提供端到端的模型，实验证明，通过从 FAT-MLM 的微调，我们提出的语音翻译模型可以将翻译质量显着提高高达 + 5.9 BLEU。

Feb, 2021

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

堆叠声学 - 文本编码：将预训练模型整合进语音翻译编码器

本文提出了一种堆叠声音和文本编码方法（SATE），以改进现有的自动语音识别和机器翻译编码器不足，使其更适合于末端到末端的语音翻译任务。实验结果表明，我们的方法在 LibriSpeech En-Fr 和 MuST-C En-De ST 任务上，都获得了最新的 BLEU 分数。

May, 2021

M3ST: 三级混合语音翻译

本文提出了一种基于数据扩充的语音翻译方法 M^3ST，通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调，再通过并行输入原始语音序列和原始文本序列进行模型微调，使用 Jensen-Shannon 散度对输出进行正则化，成功在 MuST-C 语音翻译基准上取得了优异的表现，平均 BLEU 得分达到 29.9，超越了当前强基线和取得了最新的最好成果。

Dec, 2022