- ACL通过对自监督语音表示进行对应训练改进声学词嵌入
该研究使用自监督学习(SSL)的语音模型中的 HuBERT 方法来改进通过对应自动编码器(CAE)获得的声学词嵌入(AWE),并探索了在跨语言情景下使用 SSL 语音模型来获得 AWE 的能力。
- 口语化 Word2Vec: 观点与技术
研究探讨了在使用 Word2Vec 算法时,当输入单元与声学相关时,如何无法编码分布语义。同时,对以文本为基础的嵌入进行自动词类聚类的简化方法也被忽视,而这正是该任务中真正的挑战所在。
- 神经网络方法实现口语内容嵌入
通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能,我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法;我们将这些发展扩展到几种低资源语言,并且在有限标记数据的情况下展示了多语 - 利用多语言迁移学习进行无监督语义声学词嵌入
本文研究了声学词嵌入,探索了语义学声学词嵌入,并提出了一种基于多语种转移的语义学声学词嵌入方法,能够显著提高词汇相似性任务的表现,并且能够用于语义检索。
- 利用持续预训练和学习池化的声学词嵌入技术提取未标注目标语言
本研究探讨了改进 acoustic word embeddings 的两种方法:使用预训练的 self-supervised model 进行 continued pre-training,以及使用 multilingual phone r - EMNLP分析声学单词嵌入的表征几何
本研究对英语发音学习到的声学单词嵌入进行了分析,发现学习目标对模型架构的表示特征具有显著的影响。
- 有监督的声学嵌入及其在不同语言之间的可转移性
本文研究了使用自监督预训练技术来提高语音识别的准确性,发现在监督学习框架中,利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法,并且这种方法可实现跨语言迁移。
- 从预训练自监督语音模型中分析声学词嵌入
本研究研究了多种预训练模型和池化方法,用于构建自监督表征下的变长口语单词片段的声学词嵌入,发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果,并且在 XiTsonga、Mandarin、French 上显著优于多语 - 整合形式和含义:一种用于声学词嵌入的多任务学习模型
本文提出一种结合自顶向下词汇知识的多任务学习模型,通过学习将声学输入与编码高级别信息(例如单词语义)的词汇表示相映射,从而提高了嵌入空间的可区分性,并使模型更好地分离了词汇类别。
- 自监督语音表示作为无监督声学单词嵌入输入特征的比较
本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型,发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入,可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果,并且能跨语种使用。
- ICLR基于自编码器的声学词嵌入分析
本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性,展示了其表示空间中包含单词的绝对时长和说话者信息,且在这些 AWE 的表示空间内,单词的嵌入距离会随着它们的语音差异而增加,且表现出词语起始偏置,证明了 AWE 作 - 双胞胎多视图编码器添加共享解码器用于学习声学词嵌入
本文提出了通过结合 Siamese 多视图编码器和共享解码器网络,将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训,我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现,平 - 使用编码器 - 解码器模型中的弱自上而下约束实现真正的无监督声学词嵌入
本文提出了一种基于编码器 - 解码器一一对应自编码器 (EncDec-CAE) 的无监督学习方法,用于从可变长度的语音以及无标签的语音数据中提取出与固定维度表示形式相对应的词嵌入,从而在无资源语音搜索、发现和索引系统中发挥重要作用,并在词辨 - 使用鉴别性神经声学单词嵌入的示例查询搜索
使用神经模型将查询语音和数据库语音嵌入后进行最近邻搜索,相比模板式语音嵌入取得了更高的性能和运行效率。
- 判别式声学词嵌入:循环神经网络方法
本研究基于递归神经网络 (RNN) 提出了新的区分性嵌入模型,探讨了不同的训练损失,通过单词区分任务的评估发现,相比以往的模型,分类器和 Siamese RNNs 都有所改进,其中 Siamese RNNs 的表现更为优异,同时也对嵌入模型 - 使用词对侧信息的深度卷积声学词嵌入
研究探讨了在语音识别和查询应用中将整个单词作为基本建模单位而不是音素单位,构建了可变长度语音片段到固定维度空间向量的函数以及比较了几种旧的和新的方法来解决单词辨识问题,最后制定了一种监督学习算法利用了成对单词信息训练 Siamese 卷积神