面向端到端语音意图系统中细化语音到 BERT 对齐的逐令牌对比学习预训练

Apr, 2022

面向端到端语音意图系统中细化语音到 BERT 对齐的逐令牌对比学习预训练

Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent Systems

Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang J. Kuo, Brian Kingsbury

TL;DR通过交叉语境关注机制，引入了一种简单而新颖的技术，该技术用于从语音编码器中提取上下文嵌入，使得这些嵌入可以与基于 BERT 的上下文嵌入直接比较和对齐。使用类比对损失对这种预训练模型进行微调，直接使用语音进行意图识别可以达到最先进的性能，并在语音噪声较大的情况下进行正则化，与先前结果相比可以获得高达 8％的绝对改进。

Abstract

Recent advances in End-to-End (E2E) Spoken Language Understanding (SLU) have been primarily due to effective pretraining of speech representations. One such pretraining paradigm is the distillation of semantic kn

end-to-end spoken language understanding pretraining speech encoder neural networks bert embeddings fine-tuning

发现论文，激发创造

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。

Apr, 2019

ST-BERT：跨模态语言模型预训练用于端到端口语理解

本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。

Oct, 2020

使用连续标记界面集成预训练网络进行端到端口语理解

本文提出了一种简单而健壮的端到端 SLU 模型所需的连续 Token 接口（CTI），从而使 ASR 和 NLU 网络获得网络集成。在确保仅使用预训练的网络时，我们在 E2E 方式下训练 SLU 网络，并在多任务学习下对异构数据进行培训，并在意图分类和插槽填充任务上实现最先进的性能。

Apr, 2021

利用非成对文本数据训练端到端语音意图系统

本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法，用以训练一个端到端的语音 - to - 意图系统，以减少数据稀疏问题。在实验中，作者通过改进后的 CTC-S2I 系统，使其与传统的级联式 SLU 系统具有相当的匹配性能。

Oct, 2020

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

连接预训练与微调：面向端到端语音翻译的差距缩小

本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题，进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验，我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。

Sep, 2019

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

提升口语理解中集合预测的端到端模型

本文介绍了利用两类 E2E 模型（RNN 转录器和基于注意力的编码器 - 解码器）进行口语语言理解系统的语义实体预测的研究，以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序，从而提高 E2E SLU 模型的性能。相较于以前报导的结果，F1 分数显著提高了超过 11％（对于 RNN-T）和约 2％（对于基于注意力的编码器 - 解码器）。

Jan, 2022

联合 CTC 损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合 CTC 和 SLU 损失的方法，实现了语音理解任务的话语级 SLU 模型，并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4％绝对值，在 SLURP 数据集上比 SOTA SLU 模型提高 1.3％绝对值。

May, 2023

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对 ASR 错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于 ASR 假设的估计模态置信度融合音频和文本表示，来解决 E2E SLU 系统在文本表示质量低时的问题，并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023