基于声音的词嵌入学习方法：Sound-Word2Vec

EMNLPMar, 2017

基于声音的词嵌入学习方法：Sound-Word2Vec

Sound-Word2Vec: Learning Word Representations Grounded in Sounds

Ashwin K Vijayakumar, Ramakrishna Vedantam, Devi Parikh

TL;DR该论文提出了一个新的嵌入方案 (sound-word2vec)，用于学习基于声音的专业词嵌入。这些嵌入的使用在文本检索和电影制作等任务中表现出了很好的效果，并提出来了许多新的声学和拟声词上的依赖关系。

Abstract

To be able to interact better with humans, it is crucial for machines to understand sound - a primary modality of human perception. Previous works have used sound to learn →

sound word2vec embeddings aural reasoning text-based sound retrieval

发现论文，激发创造

基于声音定位的词嵌入用于提高声学到词语语音识别

通过将最终的 AWE 识别器的 pre-softmax 权重矩阵视为词嵌入向量矩阵，并利用外部训练的词嵌入向量来改善其质量，我们提出了两种思路：（1）在训练中在外部嵌入向量与识别器权重之间强制相似性，（2）在测试时使用词嵌入向量预测生僻词以提高直接声学到单词的性能。

Mar, 2019

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

口语化 Word2Vec: 观点与技术

研究探讨了在使用 Word2Vec 算法时，当输入单元与声学相关时，如何无法编码分布语义。同时，对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视，而这正是该任务中真正的挑战所在。

Nov, 2023

Speech2Vec: 从语音中学习词嵌入的序列到序列框架

本文提出一种新颖的深度神经网络架构 Speech2Vec，用于从语音语料库中学习固定长度的音频片段矢量表示，其向量包含有关底层口语词汇的语义信息，并且如果它们的对应的底层口语词汇在语义上相似，则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架，并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息，在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入，并且胜过了从转录中学习的 Word2Vec 单词嵌入。

Mar, 2018

口语词汇的音义嵌入及其在口语内容检索中的应用

本文介绍了一种两阶段框架，用于考虑口语单词的上下文执行音素语义嵌入，第一阶段执行音素嵌入，第二阶段执行语义嵌入，我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。

Jul, 2018

从无标注视频中学习声音表征的 SoundNet

通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Oct, 2016

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

基于文本的任意声音分离

本研究提出了一种方法，通过结合两种模型，即 SoundWords 和 SoundFilter 模型，以在共享的文本 - 音频表示法中定义的调节向量为基础，将目标声音源从单通道混合中分离出来，并证明了此多模式训练方法可以提高 SoundFilter 的性能。

Apr, 2022

Visual Word2Vec (vis-w2v): 使用抽象场景学习视觉上扎根的词向量

本文提出了一种能够捕捉语义相似性的视觉词向量嵌入模型，将抽象场景作为视觉基础，并在三项任务中取得了超越文本词向量的表现。

Nov, 2015

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023