Speech2Vec: 从语音中学习词嵌入的序列到序列框架

Mar, 2018

Speech2Vec: 从语音中学习词嵌入的序列到序列框架

Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech

Yu-An Chung, James Glass

TL;DR本文提出一种新颖的深度神经网络架构 Speech2Vec，用于从语音语料库中学习固定长度的音频片段矢量表示，其向量包含有关底层口语词汇的语义信息，并且如果它们的对应的底层口语词汇在语义上相似，则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架，并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息，在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入，并且胜过了从转录中学习的 Word2Vec 单词嵌入。

Abstract

In this paper, we propose a novel deep neural network architecture, speech2vec, for learning fixed-length vector representations of audio segments excised from a speech corpus, where the vectors contain

deep neural network speech2vec word embeddings rnn encoder-decoder semantic information

发现论文，激发创造

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

基於序列到序列自編碼器的聲音片段無監督表示學習

本文提出了一种并行版本的 Audio Word2Vec，旨在为变长音频片段提供固定维度的向量表示，用于无人工注释的语音数据的无监督学习，并且采用 Denoising Sequence-to-sequence Autoencoder 进行更稳健的学习。

Mar, 2016

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

同音字揭示真相：针对 Speech2Vec 的现实检验

本文检验了 Speech2Vec 模型的效果，发现其未能学习到有效的语义嵌入，并怀疑原文中提到的语音词向量是由一个基于文本的模型生成的。

Sep, 2022

WavThruVec: 基于中间特征的语音合成中的潜在语音表示

WavThruVec is a two-stage neural text-to-speech architecture that uses high-dimensional Wav2Vec 2.0 embeddings as intermediate speech representation, allowing the model to be trained on large-scale untranscribed audio corpora and present useful properties enabling tasks like voice conversion or zero-shot synthesis.

Mar, 2022

口语词汇的音义嵌入及其在口语内容检索中的应用

本文介绍了一种两阶段框架，用于考虑口语单词的上下文执行音素语义嵌入，第一阶段执行音素嵌入，第二阶段执行语义嵌入，我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。

Jul, 2018

data2vec：自监督学习在语音、视觉和语言中的通用框架

data2vec 是一个使用标准 Transformer 结构，在语音、NLP 或计算机视觉中使用相同的学习方法，能够成功预测全面输入数据的潜在表示的框架，通过用遮掩的输入数据进行自我蒸馏设置，该方法大大提高了音频识别、图像分类和文本理解等任务的性能。

Feb, 2022

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

口语化 Word2Vec: 观点与技术

研究探讨了在使用 Word2Vec 算法时，当输入单元与声学相关时，如何无法编码分布语义。同时，对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视，而这正是该任务中真正的挑战所在。

Nov, 2023