利用多语言迁移学习进行无监督语义声学词嵌入

Jul, 2023

利用多语言迁移学习进行无监督语义声学词嵌入

Leveraging multilingual transfer for unsupervised semantic acoustic word embeddings

Christiaan Jacobs, Herman Kamper

TL;DR本文研究了声学词嵌入，探索了语义学声学词嵌入，并提出了一种基于多语种转移的语义学声学词嵌入方法，能够显著提高词汇相似性任务的表现，并且能够用于语义检索。

Abstract

acoustic word embeddings (AWEs) are fixed-dimensional vector representations of speech segments that encode phonetic content so that different realisations of the same word have similar embeddings. In this paper we explore semantic AWE modelling. These AWEs should not only capture phon

acoustic word embeddings semantic modeling multilingual transfer skipgram-like model query-by-example search

发现论文，激发创造

零资源语言的多语种音频词向量

该研究针对缺乏已标注数据的零资源语言开发语音应用的挑战，特别使用声学词嵌入（AWE），通过多语言转移利用来自几种资源丰富的语言的已标注数据。该研究介绍了一种新的神经网络，优于现有的 AWE 模型在零资源语言上的表现，研究还探讨了资源丰富语言的选择对结果的影响。AWE 应用于斯瓦希里语广播中的仇恨言论检测的关键词识别系统，展示了在实际场景中的稳健性。此外，新颖的语义 AWE 模型提高了语义查询示例搜索的性能。

Jan, 2024

整合形式和含义：一种用于声学词嵌入的多任务学习模型

本文提出一种结合自顶向下词汇知识的多任务学习模型，通过学习将声学输入与编码高级别信息（例如单词语义）的词汇表示相映射，从而提高了嵌入空间的可区分性，并使模型更好地分离了词汇类别。

Sep, 2022

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

基于自编码器的声学词嵌入分析

本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性，展示了其表示空间中包含单词的绝对时长和说话者信息，且在这些 AWE 的表示空间内，单词的嵌入距离会随着它们的语音差异而增加，且表现出词语起始偏置，证明了 AWE 作为认知科学中一个有潜力的工具，在连接语音处理和词汇记忆方面具有良好的前景。

Apr, 2020

分析声学单词嵌入的表征几何

本研究对英语发音学习到的声学单词嵌入进行了分析，发现学习目标对模型架构的表示特征具有显著的影响。

Jan, 2023

从预训练自监督语音模型中分析声学词嵌入

本研究研究了多种预训练模型和池化方法，用于构建自监督表征下的变长口语单词片段的声学词嵌入，发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果，并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。

Oct, 2022

自监督声学词嵌入的逐层分析：基于语音情感识别的研究

研究验证了自我监督语音模型的有效性，但是在各种任务中最佳利用其表示仍然具有挑战性。本研究深入研究了声学词嵌入（AWEs），这是从连续表示中得出的固定长度特征，以探索它们在特定任务中的优势。通过在两个不同的语料库 IEMOCAP 和 ESD 上进行比较实验和层次准确性分析，我们探讨了 AWEs 和原始自我监督表示之间的差异，以及适当地使用 AWEs 与词嵌入相结合所取得的高竞争性 SER 准确性。

Feb, 2024

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023

通过对自监督语音表示进行对应训练改进声学词嵌入

该研究使用自监督学习（SSL）的语音模型中的 HuBERT 方法来改进通过对应自动编码器（CAE）获得的声学词嵌入（AWE），并探索了在跨语言情景下使用 SSL 语音模型来获得 AWE 的能力。

Mar, 2024

无监督多语言词向量

提出了一种全新的多语言词向量空间的无监督学习框架，该框架可以直接捕捉不同语言之间的交互关系，从而显著提高多语种单词转换和跨语种单词相似度的效果，并且比使用跨语种资源的监督式方法表现更好。

Aug, 2018