SpeechNet: 语音处理任务的通用模块化模型
该研究提出了一种多任务语音模型 (PolySpeech),支持语音识别、语音合成和两个语音分类任务。PolySpeech 通过引入多模态语言模型作为核心结构,并使用语义表示作为语音输入,实现了多模态优化。实验结果表明,多任务优化在特定任务上表现出可与单任务优化相比的性能,并在各种任务中显示出与单任务模型相媲美的竞争力。
Jun, 2024
通过利用大型语言模型与多任务能力展示有希望的结果,我们构建了一个名为 UniverSLU 的单一多任务学习模型,它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时,我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示,并测试了该模型对新的释意表达的泛化能力。
Oct, 2023
本研究探讨了多任务学习在语音处理中的优势,通过使用自动语音识别和意图分类或情感分类的双重目标来训练模型,我们的模型虽然规模适中,但我们的研究表明多任务学习可以在低资源情况下与基线模型竞争,并且在情感分类上表现与端到端模型相当。
Nov, 2022
通过 SpeechVerse 多任务训练和课程学习框架,将预训练的语音和文本基础模型结合,使用连续潜在表示对模型进行指令微调,实现在各种自然语言指令下在多样的语音处理任务上实现最优的零样本性能。经过广泛的基准测试,我们的 SpeechVerse 模型表现出更高的性能,甚至超过了 11 个任务中的 9 个常规任务特定基准模型。
May, 2024
SpeechX 是一种通用的语音生成模型,能够实现零 - shot 语音合成和各种语音转换任务,处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习,通过任务相关的提示实现统一和可扩展的建模,并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明,SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果,与专门模型相比实现了可比或更好的性能。
Aug, 2023
通过适配器微调,我们研究了开展统一模型以有效处理多个口语处理任务的潜力,并在 SUPERB 基准测试中实验证明,适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4%,同时在参数更新方面保持高效。
Jun, 2024
本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架,该框架采用编码器 - 解码器预训练的方法进行自监督学习,具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。
Oct, 2021
本文提出了一种多任务学习框架,利用文本数据来提高自动语音识别和语音翻译的性能,其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中,该方法相对于基线线下降了 10~15% 的词错误率,在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。
Oct, 2020
该研究中提出了一种名为 SpeechComposer 的新型仅解码语音语言模型,通过组合一组固定的提示标记,可以统一常见的语音任务,从而改进了基准模型的性能。
Jan, 2024