用双任务学习方法对多语义语音编码器进行微调的口语理解
本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化,探索这种模型在低资源语言移植中的使用效益,并研究该模型的跨领域能力,以更好地实现复杂口语理解任务中的语义提取。
Jul, 2023
提出了 SAMU-XLSR 模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合,SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换。
May, 2022
本论文研究语义对齐的语音表示在端到端语音理解中的应用,并使用 SAMU-XLSR 模型,在不同语言中捕捉语音的语义,将语音表现学习模型(XLS-R)与语言无关的 BERT 句子嵌入(LaBSE)模型相结合。我们证明该模型的使用显著提高了端到端 SLU 的性能,并展示了在 SLU 中使用该模型的好处,特别是语言易携带性。
Oct, 2022
本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器,我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输,其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下,我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。
Jun, 2023
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
通过引入一个新的 NLU 双重任务 —— 语义到句子生成 (SSG),并提出一种新的半监督 NLU 框架,其中包括对应的双重模型,以解决之前半监督学习面临的标注样本稀缺问题。该框架通过主任务与对偶任务之间的闭环,使得 NLU 模型可以充分利用数据(标记和无标记),并在每次迭代中逐步提高 NLU 和 SSG 模型的性能,在 ATIS 和 SNIPS 两个公共数据集上的实验结果表明,该方法明显优于基线,而且在监督设置下也可以达到最先进水平。
Apr, 2020
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021
通过利用大型语言模型与多任务能力展示有希望的结果,我们构建了一个名为 UniverSLU 的单一多任务学习模型,它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时,我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示,并测试了该模型对新的释意表达的泛化能力。
Oct, 2023
本文提出了一种无监督的任务无关方法,将大型语言模型中的语义信息融合进入自监督语音编码器,提高了其在意图分类,名称实体识别及槽填充等方面的性能,使其达到了有监督方法同等的效果,为已有的语音编码器的无监督实现提供了可行性证明。
Nov, 2022
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022