从语音中学习词嵌入
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
本文提出了一种并行版本的 Audio Word2Vec,旨在为变长音频片段提供固定维度的向量表示,用于无人工注释的语音数据的无监督学习,并且采用 Denoising Sequence-to-sequence Autoencoder 进行更稳健的学习。
Mar, 2016
本文提出一种方法,使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中,我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外,我们在口语理解任务上评估这些嵌入并观察到,我们的嵌入匹配基于文本的嵌入在首先进行语音识别,然后从转录中构建单词嵌入的流水线中的性能。
Feb, 2019
通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能,我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法;我们将这些发展扩展到几种低资源语言,并且在有限标记数据的情况下展示了多语言训练的性能提升;我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务;最后,我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。
Aug, 2023
本研究用多视角学习、双向 LSTM 嵌入模型和多视角对比损失函数等方法学习神经音频单词嵌入,实现在语音检索和识别任务中避免模棱两可的子词表示,改善词汇区分效果,并在交叉视图词区分和词相似度等其他任务中展示了应用前景。
Nov, 2016
本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。
Oct, 2022
本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类,并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影,即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类,其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明:“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。
Nov, 2020
本文提出一种新颖的声学单词嵌入,名为声学邻域嵌入,其中利用随机邻近嵌入(SNE)将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络,它在神经网络训练中具有更有效的梯度,并在单词(名称)识别任务中显著提高了准确性,特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。
Jul, 2020
本文介绍了一种两阶段框架,用于考虑口语单词的上下文执行音素语义嵌入,第一阶段执行音素嵌入,第二阶段执行语义嵌入,我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。
Jul, 2018
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36%,最终的 WER 为 2.43%,使用的标注数据量较 Deep Speech 2 少两个数量级。
Apr, 2019