PolySpeech: 探索统一的多任务语音模型以与单任务模型竞争

Jun, 2024

PolySpeech: 探索统一的多任务语音模型以与单任务模型竞争

PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models

Runyan Yang, Huibao Yang, Xiqing Zhang, Tiantian Ye, Ying Liu...

TL;DR该研究提出了一种多任务语音模型 (PolySpeech)，支持语音识别、语音合成和两个语音分类任务。PolySpeech 通过引入多模态语言模型作为核心结构，并使用语义表示作为语音输入，实现了多模态优化。实验结果表明，多任务优化在特定任务上表现出可与单任务优化相比的性能，并在各种任务中显示出与单任务模型相媲美的竞争力。

Abstract

Recently, there have been attempts to integrate various speech processing tasks into a unified model. However, few previous works directly demonstrated that joint optimization of diverse tasks in multitask speech models has positive influence on the performance of individual tasks. In this paper we present a →

multitask speech model polyspeech speech recognition speech synthesis speech classification

发现论文，激发创造

SpeechNet: 语音处理任务的通用模块化模型

本文提出了一种通用模块化模型 SpeechNet，将所有语音处理任务分为语音 / 文本输入和语音 / 文本输出格式，并选择五个重要的语音处理任务进行多任务学习实验。研究表明，SpeechNet 学习了所有以上任务，并进一步分析了哪些任务可以通过其他任务得到改进。

May, 2021

低资源口语理解的多任务学习

本研究探讨了多任务学习在语音处理中的优势，通过使用自动语音识别和意图分类或情感分类的双重目标来训练模型，我们的模型虽然规模适中，但我们的研究表明多任务学习可以在低资源情况下与基线模型竞争，并且在情感分类上表现与端到端模型相当。

Nov, 2022

SpeechComposer: 统一多个语音任务的提示组合

该研究中提出了一种名为 SpeechComposer 的新型仅解码语音语言模型，通过组合一组固定的提示标记，可以统一常见的语音任务，从而改进了基准模型的性能。

Jan, 2024

PolyVoice: 语言模型用于语音翻译

我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Jun, 2023

神经语音翻译的绑定多任务学习

本文探讨了用于神经语音翻译的多任务模型，并对其进行增强，以反映两个直观概念。精准的中间表示和神经关联的模式，参与模型的训练可以提高低资源语音转录和翻译任务的性能。

Feb, 2018

Polyglot Prompt: 多语种多任务 PromptTraining

本文旨在为多语言学习提供潜在的架构改进，通过开发一种名为 Polyglot Prompting 的学习框架，利用提示方法为不同的语言和任务学习一个统一的语义空间进行多语言多任务基于提示的学习，以实现跨语言的互助和更全面的实验评估，开创了未来多语言研究的新方向。

Apr, 2022

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

一种联合多任务模型：为多个 NLP 任务构建神经网络

本研究提出一种多任务学习模型，可以同时训练多种语言学层次的任务，并通过一种逐步增加深度的策略来解决越来越复杂的任务。该模型使用一个简单的正则化项来实现在提高某一任务的损失函数时，不影响其他任务的学习效果。实验结果表明，这个端到端的模型在标签、句法分析、相关性与蕴含等五种任务上取得了最先进或有竞争力的结果。

Nov, 2016