口语句子的语音语言嵌入

Feb, 2019

Audio-Linguistic Embeddings for Spoken Sentences

Albert Haque, Michelle Guo, Prateek Verma, Li Fei-Fei

TL;DR本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法，并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型，以学习长期依赖关系。实验表明，在语音识别和情感识别任务中，口语句子嵌入优于基于音素和单词级别的基准模型，且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此，本文展示了一种泛化的多模态句子嵌入方法，并证明了其在口语语言理解方面的可行性。

Abstract

We propose spoken sentence embeddings which capture both acoustic and linguistic content. While existing works operate at the character, phoneme, or word level, our method learns long-term dependencies by modelin

spoken sentence embeddings audio-linguistic multitask learning long-term dependencies speech recognition emotion recognition

发现论文，激发创造

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

句级多模态和语言无关的表示

我们引入了 SONAR，一个新的多语言和多模态的固定大小句子嵌入空间，在 xsim 和 xsim++ 多语言相似性搜索任务中，我们的单一文本编码器涵盖 200 种语言，表现明显优于现有的句子嵌入如 LASER3 和 LabSE。我们还提供了一个文本解码器，涵盖 200 种语言，可以执行文本到文本和语音到文本的机器翻译，包括零射语言和模态组合。尽管固定大小的瓶颈表示，我们的文本到文本结果与最先进的 NLLB~1B 模型相媲美，我们的零射语音到文本翻译结果与强大的有监督基线如 Whisper 相比也表现得出色。

Aug, 2023

基于语义嵌入的零样本音频分类

本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类，并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影，即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类，其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明：“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。

Nov, 2020

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

整合形式和含义：一种用于声学词嵌入的多任务学习模型

本文提出一种结合自顶向下词汇知识的多任务学习模型，通过学习将声学输入与编码高级别信息（例如单词语义）的词汇表示相映射，从而提高了嵌入空间的可区分性，并使模型更好地分离了词汇类别。

Sep, 2022

多视角循环神经声学词嵌入

本研究用多视角学习、双向 LSTM 嵌入模型和多视角对比损失函数等方法学习神经音频单词嵌入，实现在语音检索和识别任务中避免模棱两可的子词表示，改善词汇区分效果，并在交叉视图词区分和词相似度等其他任务中展示了应用前景。

Nov, 2016

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023