STTATTS：统一语音转文本和文本转语音模型

Oct, 2024

STTATTS：统一语音转文本和文本转语音模型

STTATTS: Unified Speech-To-Text And Text-To-Speech Model

Hawau Olamide Toyin, Hao Li, Hanan Aldarmaki

TL;DR本研究解决了语音识别和语音合成模型通常分开训练的问题，提出了一种通过多任务学习和共享参数的参数高效方法。研究表明，该多任务模型的性能与单独训练的模型相当，同时显著减少了计算和内存成本（两个任务所需的参数总数减少约50%）。

Abstract

Speech Recognition and Speech Synthesis models are typically trained separately, each with its own set of learning objectives, training data, and model parameters, resulting in two distinct large networks. We pro