离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

Jun, 2024

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding

Suwon Shon, Kwangyoun Kim, Yi-Te Hsu, Prashant Sridhar, Shinji Watanabe...

TL;DR通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Abstract

The integration of pre-trained text-based large language models (LLM) with speech input has enabled instruction-following capabilities for diverse speech tasks. This integration requires the use of a speech encod

pre-trained text-based large language models speech input discrete speech units self-supervised speech encoder spoken question answering

发现论文，激发创造

利用离散单元作为中间目标提高无文本口语理解

本研究提出使用内容分离的离散单元作为中间指导，以提高文本缺失情况下的口语理解性能，结果表明该方法在五个 SLU 基准语料库上优于基准方法，并且该单位指导可以促进少样本学习，增强模型处理噪声的能力。

May, 2023

通过离散语音单元预训练的紧凑语音翻译模型

使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见，但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练，从而在有限的语音翻译数据上微调初始化的新模型，并利用离散语音单元预训练来凝结自监督学习模型的知识，从而使得最终模型更加紧凑。我们的方法相比于将离散语音单元用作模型输入，具有短推理流程和对（离散语音单元）分词具有鲁棒性等多个优点。与自动语音识别的预训练相比，它不需要转录，因此适用于资源有限的环境。在 CoVoST-2 X-En 数据集上的评估结果显示，我们的方法比直接微调自监督学习模型的语音翻译模型具有更高的 BLEU 得分（提升 0.5），且模型大小仅为其一半，并且与自动语音识别的预训练方法相媲美。

Feb, 2024

使用离散化语音单元探索语音识别、翻译和理解：一项比较研究

通过对离散单元在端到端语音处理模型中应用的系统和全面的探索，实验证明离散单元在几乎所有设置中都可以取得相当好的结果。

Sep, 2023

分析用于口语语言模型的离散自监督语音表示

本文通过生成式语言模型的视角深入分析离散自监督语音表示（单元），并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性，且与说话人或性别的相关性较弱。此外，该研究发现单元提取中存在冗余性，并提出了一种新的无监督测量单元冗余的方法。最后，研究使用此度量标准开发了新的方法，用于改进单元的聚类鲁棒性并在零资源语音测量方法（例如 ABX）方面表现出显着的改进。

Jan, 2023

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

口语建模需要离散单元吗？

本文研究了在语音语言建模中，离散与连续表示的作用，结论表明离散化具有重要作用，并在 HuBERT 特征上训练了语言模型，在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳表现。

Mar, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

该研究探索了使用单个模型的句子级多语种视觉语音识别，通过将视觉语音单元离散化作为输入，基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练，结合曲线学习改善语音识别中的视觉信息缺失，实现了与以往特定语言视觉语音识别模型相当的性能。

Jan, 2024

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019