ST-BERT：跨模态语言模型预训练用于端到端口语理解

Oct, 2020

ST-BERT：跨模态语言模型预训练用于端到端口语理解

ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding

Minjeong Kim, Gyuwan Kim, Sang-Woo Lee, Jung-Woo Ha

TL;DR本文介绍了一种跨模态预训练语言模型——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高SLU性能的表现。

Abstract

language model pre-training has shown promising results in various downstream tasks. In this context, we introduce a cross-modal pre-trained language model, called speech-text bert (ST-BERT), to tackle

发现论文，激发创造

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

SpeechBERT：一个用于端到端口语问答的音频和文本联合学习语言模型

该研究提出了一种基于音频和文本联合训练的SpeechBERT模型，通过端对端地提取语音信息，解决了端到端口语问答任务中音频转换文本出现的问题，并且在包括ASR错误的数据集中表现出优异的性能。该模型可以为许多口语理解任务提供潜在的借鉴，其效果优于传统的级联ASR和TQA模型的方法。

Oct, 2019

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类10个示例后优于流水线结构。

Jul, 2020

弥合语音到文本翻译的模态差距

提出了一种称作STAST的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

跨模态潜在空间的编码嵌入：面向端到端口语理解

本文提出使用多模型、跨模态潜空间以及三元组损失函数来提高端到端语音理解的性能。

Nov, 2020

基于BERT的语言模型在口语转录中学习的实证研究

本文介绍了将自然语言处理的特性应用于口语语言理解上，包括不同的话语特征和多模态表现。该文尝试拆解口语的语言障碍和多重意思，并探讨了BERT和RoBERTa语言模型对SLU的适应性和局限性。文中还验证了语言模型对话语特征的表现，尤其是对于声学提示较少的语音模型的成果。

Sep, 2021

SLAM: 通过语音-文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括BERT目标和w2v-BERT目标以及其他预训练技术改进，同时在GLUE任务中也取得了不俗的竞争力。

Oct, 2021

mSLAM：面向文本和语音的大规模多语言联合预训练

mSLAM是一种多语言语音和语言模型，通过在多种语言的大量无标记语音和文本上联合预训练学习跨语言跨模式表示。

Feb, 2022

面向端到端语音意图系统中细化语音到BERT对齐的逐令牌对比学习预训练

通过交叉语境关注机制，引入了一种简单而新颖的技术，该技术用于从语音编码器中提取上下文嵌入，使得这些嵌入可以与基于BERT的上下文嵌入直接比较和对齐。使用类比对损失对这种预训练模型进行微调，直接使用语音进行意图识别可以达到最先进的性能，并在语音噪声较大的情况下进行正则化，与先前结果相比可以获得高达8％的绝对改进。

Apr, 2022

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译(ST)作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023