使用语义对齐的语音表示进行口语语言理解

MMOct, 2022

使用语义对齐的语音表示进行口语语言理解

On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding

Gaëlle Laperrière, Valentin Pelloin, Mickaël Rouvier, Themos Stafylakis, Yannick Estève

TL;DR本论文研究语义对齐的语音表示在端到端语音理解中的应用，并使用 SAMU-XLSR 模型，在不同语言中捕捉语音的语义，将语音表现学习模型（XLS-R）与语言无关的 BERT 句子嵌入（LaBSE）模型相结合。我们证明该模型的使用显著提高了端到端 SLU 的性能，并展示了在 SLU 中使用该模型的好处，特别是语言易携带性。

Abstract

In this paper we examine the use of semantically-aligned speech representations for end-to-end spoken language understanding (SLU). We employ the recently-introduced →

spoken language understanding samu-xlsr model end-to-end semantically-aligned speech representation language portability

发现论文，激发创造

SAMU-XLSR：语义对齐的多模态话语级跨语言语音表示

提出了 SAMU-XLSR 模型，基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合，SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征，并可以实现跨语音和跨文字之间的相互转换。

May, 2022

语音表征的语义丰富化

本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化，探索这种模型在低资源语言移植中的使用效益，并研究该模型的跨领域能力，以更好地实现复杂口语理解任务中的语义提取。

Jul, 2023

用双任务学习方法对多语义语音编码器进行微调的口语理解

本论文提出了一种双任务学习方法，以改进 SAMU-XLSR 的语义增强，并考虑到多语言和语言可移植性实验中的远程语言。

Jun, 2024

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

口语理解中的语义概念抽取现状如何？

本文述及基于最近三年的神经网络技术，通过直接从语音信号中提取语义，取代传统的分类式自然语言处理方式，以 spoken language understanding 话题研究为主，在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展，并提出了得到明显改进的成果，概念误差率（CER）从现有最优系统的 13.6% 降至 11.2%。

Jun, 2021

基于端到端神经变形器的口语理解

本论文介绍了一种基于端到端的神经网络转换器，可以在不需要中间层令牌预测架构的情况下，在音频信号中预测嵌入式变长域、意图和插槽向量，可高效提取所述话语所隐含的语义上下文。

Aug, 2020

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023