SpeechNet: 语音处理任务的通用模块化模型

May, 2021

SpeechNet: 语音处理任务的通用模块化模型

SpeechNet: A Universal Modularized Model for Speech Processing Tasks

Yi-Chen Chen, Po-Han Chi, Shu-wen Yang, Kai-Wei Chang, Jheng-hao Lin...

TL;DR本文提出了一种通用模块化模型 SpeechNet，将所有语音处理任务分为语音 / 文本输入和语音 / 文本输出格式，并选择五个重要的语音处理任务进行多任务学习实验。研究表明，SpeechNet 学习了所有以上任务，并进一步分析了哪些任务可以通过其他任务得到改进。

Abstract

There is a wide variety of speech processing tasks ranging from extracting content information from speech signals to generating speech signals. For different tasks, model networks are usually designed and tuned separately. If a →

speech processing tasks universal model multi-task learning modularized model speechnet

发现论文，激发创造

PolySpeech: 探索统一的多任务语音模型以与单任务模型竞争

该研究提出了一种多任务语音模型 (PolySpeech)，支持语音识别、语音合成和两个语音分类任务。PolySpeech 通过引入多模态语言模型作为核心结构，并使用语义表示作为语音输入，实现了多模态优化。实验结果表明，多任务优化在特定任务上表现出可与单任务优化相比的性能，并在各种任务中显示出与单任务模型相媲美的竞争力。

Jun, 2024

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

在多任务口语语言理解模型中寻找任务特定的子网络

通过神经网络剪枝，在多任务语言理解模型中找到特定任务的子网络，实现模型压缩和在新数据上适应能力的提升。

Jun, 2024

低资源口语理解的多任务学习

本研究探讨了多任务学习在语音处理中的优势，通过使用自动语音识别和意图分类或情感分类的双重目标来训练模型，我们的模型虽然规模适中，但我们的研究表明多任务学习可以在低资源情况下与基线模型竞争，并且在情感分类上表现与端到端模型相当。

Nov, 2022

SpeechVerse: 一个大规模可推广的音频语言模型

通过 SpeechVerse 多任务训练和课程学习框架，将预训练的语音和文本基础模型结合，使用连续潜在表示对模型进行指令微调，实现在各种自然语言指令下在多样的语音处理任务上实现最优的零样本性能。经过广泛的基准测试，我们的 SpeechVerse 模型表现出更高的性能，甚至超过了 11 个任务中的 9 个常规任务特定基准模型。

May, 2024

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Aug, 2023

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

SpeechT5：面向口语语言处理的统一模态编解码预训练

本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架，该框架采用编码器 - 解码器预训练的方法进行自监督学习，具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。

Oct, 2021

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

SpeechComposer: 统一多个语音任务的提示组合

该研究中提出了一种名为 SpeechComposer 的新型仅解码语音语言模型，通过组合一组固定的提示标记，可以统一常见的语音任务，从而改进了基准模型的性能。

Jan, 2024