将语义引入语音编码器

Nov, 2022

Introducing Semantics into Speech Encoders

Derek Xu, Shuyan Dong, Changhan Wang, Suyoun Kim, Zhaojiang Lin...

TL;DR本文提出了一种无监督的任务无关方法，将大型语言模型中的语义信息融合进入自监督语音编码器，提高了其在意图分类，名称实体识别及槽填充等方面的性能，使其达到了有监督方法同等的效果，为已有的语音编码器的无监督实现提供了可行性证明。

Abstract

Recent studies find existing self-supervised speech encoders contain primarily acoustic rather than semantic information. As a result, pipelined supervised automatic speech recognition (ASR) to →

self-supervised speech encoder semantic information automatic speech recognition large language model unsupervised approach

发现论文，激发创造

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

语音表征的语义丰富化

本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化，探索这种模型在低资源语言移植中的使用效益，并研究该模型的跨领域能力，以更好地实现复杂口语理解任务中的语义提取。

Jul, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

用双任务学习方法对多语义语音编码器进行微调的口语理解

本论文提出了一种双任务学习方法，以改进 SAMU-XLSR 的语义增强，并考虑到多语言和语言可移植性实验中的远程语言。

Jun, 2024

多个自监督任务中学习与问题无关的语言表征

本论文提出一种改进的自监督学习方法，其中单个神经编码器由多个工作人员共同解决不同的自监督任务，该方法可学习传输、强健和面向问题的特征，这些特征中包含了从语音信号中提取的相关信息，如讲话者身份、音素和情感线索。

Apr, 2019

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

具有强大 ASR 能力的 LMM 的令人尴尬的简单方法

通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的 SLAM-ASR 系统，该系统在 Librispeech 基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。

Feb, 2024

口语理解中的语义概念抽取现状如何？

本文述及基于最近三年的神经网络技术，通过直接从语音信号中提取语义，取代传统的分类式自然语言处理方式，以 spoken language understanding 话题研究为主，在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展，并提出了得到明显改进的成果，概念误差率（CER）从现有最优系统的 13.6% 降至 11.2%。

Jun, 2021