口语词汇的音义嵌入及其在口语内容检索中的应用
研究探讨了在使用 Word2Vec 算法时,当输入单元与声学相关时,如何无法编码分布语义。同时,对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视,而这正是该任务中真正的挑战所在。
Nov, 2023
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本文提出一种方法,使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中,我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外,我们在口语理解任务上评估这些嵌入并观察到,我们的嵌入匹配基于文本的嵌入在首先进行语音识别,然后从转录中构建单词嵌入的流水线中的性能。
Feb, 2019
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
利用音频字向量和自编码器实现跨模态的语音识别,演示了即使缺乏训练数据,也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。
Oct, 2018
本文检验了 Speech2Vec 模型的效果,发现其未能学习到有效的语义嵌入,并怀疑原文中提到的语音词向量是由一个基于文本的模型生成的。
Sep, 2022
本文提出了几种新的方法,利用发音特征构建语音感知单词嵌入,并介绍了一组语音单词嵌入,以促进社区发展,评估和使用,同时提出了若干评估方法,以促进语音单词嵌入的内在和外在性能评估,并希望我们的一系列任务能促进可复现性,为以后的语音单词嵌入研究提供方向。
Apr, 2023
本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法,并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型,以学习长期依赖关系。实验表明,在语音识别和情感识别任务中,口语句子嵌入优于基于音素和单词级别的基准模型,且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此,本文展示了一种泛化的多模态句子嵌入方法,并证明了其在口语语言理解方面的可行性。
Feb, 2019
通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能,我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法;我们将这些发展扩展到几种低资源语言,并且在有限标记数据的情况下展示了多语言训练的性能提升;我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务;最后,我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。
Aug, 2023
该论文提出了一个新的嵌入方案 (sound-word2vec),用于学习基于声音的专业词嵌入。 这些嵌入的使用在文本检索和电影制作等任务中表现出了很好的效果,并提出来了许多新的声学和拟声词上的依赖关系。
Mar, 2017