多视角循环神经声学词嵌入
通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能,我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法;我们将这些发展扩展到几种低资源语言,并且在有限标记数据的情况下展示了多语言训练的性能提升;我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务;最后,我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。
Aug, 2023
本研究基于递归神经网络 (RNN) 提出了新的区分性嵌入模型,探讨了不同的训练损失,通过单词区分任务的评估发现,相比以往的模型,分类器和 Siamese RNNs 都有所改进,其中 Siamese RNNs 的表现更为优异,同时也对嵌入模型和网络结构等变量进行了分析。
Nov, 2016
本文提出了通过结合 Siamese 多视图编码器和共享解码器网络,将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训,我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现,平均准确率相对提升了 11.1%。我们还在跨视图单词鉴别和单词级语音识别任务中展示了实验结果。
Oct, 2019
本文提出一种方法,使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中,我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外,我们在口语理解任务上评估这些嵌入并观察到,我们的嵌入匹配基于文本的嵌入在首先进行语音识别,然后从转录中构建单词嵌入的流水线中的性能。
Feb, 2019
本文提出一种新颖的声学单词嵌入,名为声学邻域嵌入,其中利用随机邻近嵌入(SNE)将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络,它在神经网络训练中具有更有效的梯度,并在单词(名称)识别任务中显著提高了准确性,特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。
Jul, 2020
研究探讨了在语音识别和查询应用中将整个单词作为基本建模单位而不是音素单位,构建了可变长度语音片段到固定维度空间向量的函数以及比较了几种旧的和新的方法来解决单词辨识问题,最后制定了一种监督学习算法利用了成对单词信息训练 Siamese 卷积神经网络以得出单词的嵌入向量。研究发现该算法在单词辨识任务上取得了比以往出版物更好的结果。
Oct, 2015
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本文提出一种结合自顶向下词汇知识的多任务学习模型,通过学习将声学输入与编码高级别信息(例如单词语义)的词汇表示相映射,从而提高了嵌入空间的可区分性,并使模型更好地分离了词汇类别。
Sep, 2022
研究探讨了在使用 Word2Vec 算法时,当输入单元与声学相关时,如何无法编码分布语义。同时,对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视,而这正是该任务中真正的挑战所在。
Nov, 2023