大型语言模型在语音合成中的提升：一项实证研究

Dec, 2023

大型语言模型在语音合成中的提升：一项实证研究

Boosting Large Language Model for Speech Synthesis: An Empirical Study

Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu...

TL;DR本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Abstract

large language models (llms) have made significant advancements in natural language processing and are concurrently extending the language ability to other modalities, such as speech and vision. Nevertheless, mos

large language models llms speech synthesis text-to-speech boosting

发现论文，激发创造

WavLLM：面向健壮和适应性语音大语言模型的研究

WavLLM 是一种鲁棒且自适应的具有双编码器和提示感知的语音大型语言模型，通过两阶段课程学习方法来优化，以在各种语境下进行听觉任务的泛化和执行复杂任务。

Mar, 2024

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

连接语音编码器和大型语言模型的全面解决方案用于语音识别

本文提出了一个综合解决方案，包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误，实验证明部分微调语音编码器和语言模型，以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法，匹配损失能够提升模态对齐，而所提出的训练和推理方法则显著减少了插入错误。

Jun, 2024

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出 BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023