SpeechCaps：通过多说话者语音风格注释推进基于指令的通用语音模型

Aug, 2024

SpeechCaps：通过多说话者语音风格注释推进基于指令的通用语音模型

SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning

Chien-yu Huang, Min-Han Shih, Ke-Han Lu, Chi-Yuan Hsiao, Hung-yi Lee

TL;DR本研究针对基于指令的语音处理中的任务多样性不足的问题，提出了一种新颖的多说话者语音风格注释任务，以增强对说话者及节奏信息的理解。研究发现，该模型经过此注释任务预训练后，能够显著提升说话者和情感识别的性能，对下游任务具有潜在重大影响。

Abstract

Instruction-based Speech Processing is becoming popular. Studies show that training with multiple tasks boosts performance, but collecting diverse, large-scale tasks and datasets is expensive. Thus, it is highly desirable to design a fundamental task that benefits other downstream task

发现论文，激发创造

适应风格的预训练和参数高效微调用于口语理解

为解决领域特定标注样本数量过多的问题，提出了一种由对话语言建模预训练任务和轻量级编码器构成的SLU框架，通过预训练学习对话语言表示和解耦共享网络与映射领域特定知识的轻量级编码器实现领域适应。在内部和公共数据集上，该框架在添加少量参数的情况下与现有SLU方法的表现相匹配。

Oct, 2020

为处理多个说话人而改编多语言ASR模型

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将USMs转换为具有时间戳预测能力的强大的多语言多说话人ASR模型

May, 2023

Dynamic-SUPERB：面向语音的动态、协作和全面的教学调优基准

为了提供评价语音处理任务通用模型的基准，我们介绍了Dynamic-SUPERB，该基准通过结合33个任务和22个数据集，提供了多维度的综合评估平台，并提出了一些建立基准的方法。评估结果表明，虽然这些基准在已知任务上表现得合理，但在未知任务上表现不佳，需要进一步的改进。

Sep, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频-语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

StyleCap：基于语音和语言自我监督学习模型的自动口语样式字幕生成

StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法，通过训练神经网络来预测前缀向量，并使用一个大型语言模型（LLM）的文本解码器从语音表示向量生成说话风格提示。

Nov, 2023

SpeechVerse: 一个大规模可推广的音频语言模型

通过SpeechVerse多任务训练和课程学习框架，将预训练的语音和文本基础模型结合，使用连续潜在表示对模型进行指令微调，实现在各种自然语言指令下在多样的语音处理任务上实现最优的零样本性能。经过广泛的基准测试，我们的SpeechVerse模型表现出更高的性能，甚至超过了11个任务中的9个常规任务特定基准模型。

May, 2024

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在SUPERB基准测试中实验证明，适配器微调使得单一的编码-解码模型在五个目标任务上的性能提高了18.4％，同时在参数更新方面保持高效。

Jun, 2024

因素条件下的言语风格字幕生成

本篇论文提出了一种新颖的说话风格字幕生成方法，能够生成多样的描述，同时准确地预测说话风格信息。通过引入因素条件字幕生成（FCC）和贪婪采样（GtS）解码方法，实现对说话风格因素的学习和生成多样化的字幕，提高了风格预测性能。

Jun, 2024

风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

本研究解决了在语音对话生成中实时性与自然性不足的问题，提出了一种创新框架Style-Talker，通过微调音频语言模型与风格化文本到语音模型，利用用户输入音频生成响应的语音风格与文本。实验结果显示，Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型，同时速度提高超过50%。

Aug, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024