自监督声学词嵌入的逐层分析：基于语音情感识别的研究

Feb, 2024

自监督声学词嵌入的逐层分析：基于语音情感识别的研究

Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition

Alexandra Saliba, Yuanchao Li, Ramon Sanabria, Catherine Lai

TL;DR研究验证了自我监督语音模型的有效性，但是在各种任务中最佳利用其表示仍然具有挑战性。本研究深入研究了声学词嵌入（AWEs），这是从连续表示中得出的固定长度特征，以探索它们在特定任务中的优势。通过在两个不同的语料库 IEMOCAP 和 ESD 上进行比较实验和层次准确性分析，我们探讨了 AWEs 和原始自我监督表示之间的差异，以及适当地使用 AWEs 与词嵌入相结合所取得的高竞争性 SER 准确性。

Abstract

The efficacy of self-supervised speech models has been validated, yet the optimal utilization of their representations remains challenging across diverse tasks. In this study, we delve into Acoustic Word Embeddings (AWEs), a fixed-length feature derived from continuous representations,

self-supervised speech models acoustic word embeddings (awes)speech emotion recognition (ser)layer-wise similarity acoustic context

发现论文，激发创造

从预训练自监督语音模型中分析声学词嵌入

本研究研究了多种预训练模型和池化方法，用于构建自监督表征下的变长口语单词片段的声学词嵌入，发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果，并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。

Oct, 2022

基于自编码器的声学词嵌入分析

本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性，展示了其表示空间中包含单词的绝对时长和说话者信息，且在这些 AWE 的表示空间内，单词的嵌入距离会随着它们的语音差异而增加，且表现出词语起始偏置，证明了 AWE 作为认知科学中一个有潜力的工具，在连接语音处理和词汇记忆方面具有良好的前景。

Apr, 2020

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

利用多语言迁移学习进行无监督语义声学词嵌入

本文研究了声学词嵌入，探索了语义学声学词嵌入，并提出了一种基于多语种转移的语义学声学词嵌入方法，能够显著提高词汇相似性任务的表现，并且能够用于语义检索。

Jul, 2023

分析声学单词嵌入的表征几何

本研究对英语发音学习到的声学单词嵌入进行了分析，发现学习目标对模型架构的表示特征具有显著的影响。

Jan, 2023

通过对自监督语音表示进行对应训练改进声学词嵌入

该研究使用自监督学习（SSL）的语音模型中的 HuBERT 方法来改进通过对应自动编码器（CAE）获得的声学词嵌入（AWE），并探索了在跨语言情景下使用 SSL 语音模型来获得 AWE 的能力。

Mar, 2024

自监督语音表示作为无监督声学单词嵌入输入特征的比较

本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型，发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入，可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果，并且能跨语种使用。

Dec, 2020

整合形式和含义：一种用于声学词嵌入的多任务学习模型

本文提出一种结合自顶向下词汇知识的多任务学习模型，通过学习将声学输入与编码高级别信息（例如单词语义）的词汇表示相映射，从而提高了嵌入空间的可区分性，并使模型更好地分离了词汇类别。

Sep, 2022

零资源语言的多语种音频词向量

该研究针对缺乏已标注数据的零资源语言开发语音应用的挑战，特别使用声学词嵌入（AWE），通过多语言转移利用来自几种资源丰富的语言的已标注数据。该研究介绍了一种新的神经网络，优于现有的 AWE 模型在零资源语言上的表现，研究还探讨了资源丰富语言的选择对结果的影响。AWE 应用于斯瓦希里语广播中的仇恨言论检测的关键词识别系统，展示了在实际场景中的稳健性。此外，新颖的语义 AWE 模型提高了语义查询示例搜索的性能。

Jan, 2024

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023