同音字揭示真相:针对 Speech2Vec 的现实检验
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
研究探讨了在使用 Word2Vec 算法时,当输入单元与声学相关时,如何无法编码分布语义。同时,对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视,而这正是该任务中真正的挑战所在。
Nov, 2023
本文介绍了一种两阶段框架,用于考虑口语单词的上下文执行音素语义嵌入,第一阶段执行音素嵌入,第二阶段执行语义嵌入,我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。
Jul, 2018
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析,发现 S3M 表示对于音韵相似性的相似度比语义相似性更高,并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明,即使只使用单词自身的信息,也能超越基于 S3M 的模型,在一些数据集上获得更高的性能,从而证实了研究结果,并暗示高分并不一定意味着语义内容的存在。
Jun, 2024
本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。
Oct, 2022
利用音频字向量和自编码器实现跨模态的语音识别,演示了即使缺乏训练数据,也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。
Oct, 2018
本文提出一种方法,使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中,我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外,我们在口语理解任务上评估这些嵌入并观察到,我们的嵌入匹配基于文本的嵌入在首先进行语音识别,然后从转录中构建单词嵌入的流水线中的性能。
Feb, 2019
本文提出了一种集成方法,通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016