用双任务学习方法对多语义语音编码器进行微调的口语理解

Jun, 2024

用双任务学习方法对多语义语音编码器进行微调的口语理解

A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding

Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Yannick Estève

TL;DR本论文提出了一种双任务学习方法，以改进 SAMU-XLSR 的语义增强，并考虑到多语言和语言可移植性实验中的远程语言。

Abstract

self-supervised learning is vastly used to efficiently represent speech for Spoken Language Understanding, gradually replacing conventional approaches. Meanwhile, textual SSL models are proposed to encode language-agnostic semantics. →

self-supervised learning samu-xlsr multilingual speech representations semantic enrichment dual task learning

发现论文，激发创造

语音表征的语义丰富化

本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化，探索这种模型在低资源语言移植中的使用效益，并研究该模型的跨领域能力，以更好地实现复杂口语理解任务中的语义提取。

Jul, 2023

SAMU-XLSR：语义对齐的多模态话语级跨语言语音表示

提出了 SAMU-XLSR 模型，基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合，SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征，并可以实现跨语音和跨文字之间的相互转换。

May, 2022

使用语义对齐的语音表示进行口语语言理解

本论文研究语义对齐的语音表示在端到端语音理解中的应用，并使用 SAMU-XLSR 模型，在不同语言中捕捉语音的语义，将语音表现学习模型（XLS-R）与语言无关的 BERT 句子嵌入（LaBSE）模型相结合。我们证明该模型的使用显著提高了端到端 SLU 的性能，并展示了在 SLU 中使用该模型的好处，特别是语言易携带性。

Oct, 2022

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

半监督自然语言理解的双向学习

通过引入一个新的 NLU 双重任务 —— 语义到句子生成 (SSG)，并提出一种新的半监督 NLU 框架，其中包括对应的双重模型，以解决之前半监督学习面临的标注样本稀缺问题。该框架通过主任务与对偶任务之间的闭环，使得 NLU 模型可以充分利用数据（标记和无标记），并在每次迭代中逐步提高 NLU 和 SSG 模型的性能，在 ATIS 和 SNIPS 两个公共数据集上的实验结果表明，该方法明显优于基线，而且在监督设置下也可以达到最先进水平。

Apr, 2020

口语理解中的语义概念抽取现状如何？

本文述及基于最近三年的神经网络技术，通过直接从语音信号中提取语义，取代传统的分类式自然语言处理方式，以 spoken language understanding 话题研究为主，在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展，并提出了得到明显改进的成果，概念误差率（CER）从现有最优系统的 13.6% 降至 11.2%。

Jun, 2021

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

将语义引入语音编码器

本文提出了一种无监督的任务无关方法，将大型语言模型中的语义信息融合进入自监督语音编码器，提高了其在意图分类，名称实体识别及槽填充等方面的性能，使其达到了有监督方法同等的效果，为已有的语音编码器的无监督实现提供了可行性证明。

Nov, 2022

低资源口语理解元辅助学习

本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法，通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能，无需访问任何语义注释，该算法的效率在公共 CATSLU 数据集上得到了证明。

Jun, 2022