语音文本语义对齐嵌入的分析

Apr, 2022

An Analysis of Semantically-Aligned Speech-Text Embeddings

Muhammad Huzaifah, Ivan Kukanov

TL;DR本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Abstract

embeddings play an important role in end-to-end solutions for multi-modal language processing problems. Although there has been some effort to understand the properties of single-modality embedding spaces, particularly that of text, their →

embeddings multi-modal language processing cross-modal counterparts joint speech-text embedding space automatic speech recognition

发现论文，激发创造

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

跨模态潜在空间的编码嵌入：面向端到端口语理解

本文提出使用多模型、跨模态潜空间以及三元组损失函数来提高端到端语音理解的性能。

Nov, 2020

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

单语和跨语言元嵌入的共同语义空间

本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入，使用线性变换和平均值将现有单词向量投射到公共语义空间，以保持原始嵌入的维度，并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估，我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性，并获取了在语义文本相似性方面具有竞争力的结果，并在单词相似性和词性标注方面得到了最先进的性能（英文和西班牙文）。跨语言元嵌入还表现出优秀的跨语言转移学习能力，即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。

Jan, 2020

探究多模态嵌入在语言属性中的应用：视觉 - 语义案例

本篇论文提出了一种探测任务的方法，通过训练分类器来比较各种最新的文本 - 图像语义嵌入，揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明，视觉 - 语义嵌入的识别准确率比单媒体嵌入提高了 12% 以上。

Feb, 2021