双胞胎多视图编码器添加共享解码器用于学习声学词嵌入

Oct, 2019

双胞胎多视图编码器添加共享解码器用于学习声学词嵌入

Additional Shared Decoder on Siamese Multi-view Encoders for Learning Acoustic Word Embeddings

Myunghun Jung, Hyungjun Lim, Jahyun Goo, Youngmoon Jung, Hoirin Kim

TL;DR本文提出了通过结合 Siamese 多视图编码器和共享解码器网络，将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训，我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现，平均准确率相对提升了 11.1％。我们还在跨视图单词鉴别和单词级语音识别任务中展示了实验结果。

Abstract

acoustic word embeddings --- fixed-dimensional vector representations of arbitrary-length words --- have attracted increasing interest in query-by-example spoken term detection. Recently, on the fact that the orthography of text labels partly reflects the phonetic similarity between th

acoustic word embeddings multi-view approach discriminative embeddings network architecture wsj dataset

发现论文，激发创造

多视角循环神经声学词嵌入

本研究用多视角学习、双向 LSTM 嵌入模型和多视角对比损失函数等方法学习神经音频单词嵌入，实现在语音检索和识别任务中避免模棱两可的子词表示，改善词汇区分效果，并在交叉视图词区分和词相似度等其他任务中展示了应用前景。

Nov, 2016

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023

判别式声学词嵌入：循环神经网络方法

本研究基于递归神经网络 (RNN) 提出了新的区分性嵌入模型，探讨了不同的训练损失，通过单词区分任务的评估发现，相比以往的模型，分类器和 Siamese RNNs 都有所改进，其中 Siamese RNNs 的表现更为优异，同时也对嵌入模型和网络结构等变量进行了分析。

Nov, 2016

使用词对侧信息的深度卷积声学词嵌入

研究探讨了在语音识别和查询应用中将整个单词作为基本建模单位而不是音素单位，构建了可变长度语音片段到固定维度空间向量的函数以及比较了几种旧的和新的方法来解决单词辨识问题，最后制定了一种监督学习算法利用了成对单词信息训练 Siamese 卷积神经网络以得出单词的嵌入向量。研究发现该算法在单词辨识任务上取得了比以往出版物更好的结果。

Oct, 2015

声学邻居嵌入

本文提出一种新颖的声学单词嵌入，名为声学邻域嵌入，其中利用随机邻近嵌入（SNE）将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络，它在神经网络训练中具有更有效的梯度，并在单词（名称）识别任务中显著提高了准确性，特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。

Jul, 2020

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

口语句子的语音语言嵌入

本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法，并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型，以学习长期依赖关系。实验表明，在语音识别和情感识别任务中，口语句子嵌入优于基于音素和单词级别的基准模型，且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此，本文展示了一种泛化的多模态句子嵌入方法，并证明了其在口语语言理解方面的可行性。

Feb, 2019

多视角文档表示学习在开放域密集检索中的应用

本文提出了一种多视角文档表示学习框架，通过生成多个视图嵌入来表示文档，并通过全局 - 局部 loss 函数来防止多视图嵌入坍塌到同一个嵌入中，实现了稳定性的匹配，在密集检索方面取得了最新的成果。

Mar, 2022

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

使用鉴别性神经声学单词嵌入的示例查询搜索

使用神经模型将查询语音和数据库语音嵌入后进行最近邻搜索，相比模板式语音嵌入取得了更高的性能和运行效率。

Jun, 2017