自监督语音表示作为无监督声学单词嵌入输入特征的比较

Dec, 2020

自监督语音表示作为无监督声学单词嵌入输入特征的比较

A comparison of self-supervised speech representations as input features for unsupervised acoustic word embeddings

Lisa van Staden, Herman Kamper

TL;DR本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型，发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入，可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果，并且能跨语种使用。

Abstract

Many speech processing tasks involve measuring the acoustic similarity between speech segments. acoustic word embeddings (AWE) allow for efficient comparisons by mapping speech segments of arbitrary duration to f

speech processing acoustic word embeddings self-supervised predictive coding representation learning zero-resource

发现论文，激发创造

通过对自监督语音表示进行对应训练改进声学词嵌入

该研究使用自监督学习（SSL）的语音模型中的 HuBERT 方法来改进通过对应自动编码器（CAE）获得的声学词嵌入（AWE），并探索了在跨语言情景下使用 SSL 语音模型来获得 AWE 的能力。

Mar, 2024

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

自监督声学词嵌入的逐层分析：基于语音情感识别的研究

研究验证了自我监督语音模型的有效性，但是在各种任务中最佳利用其表示仍然具有挑战性。本研究深入研究了声学词嵌入（AWEs），这是从连续表示中得出的固定长度特征，以探索它们在特定任务中的优势。通过在两个不同的语料库 IEMOCAP 和 ESD 上进行比较实验和层次准确性分析，我们探讨了 AWEs 和原始自我监督表示之间的差异，以及适当地使用 AWEs 与词嵌入相结合所取得的高竞争性 SER 准确性。

Feb, 2024

从预训练自监督语音模型中分析声学词嵌入

本研究研究了多种预训练模型和池化方法，用于构建自监督表征下的变长口语单词片段的声学词嵌入，发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果，并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。

Oct, 2022

使用编码器 - 解码器模型中的弱自上而下约束实现真正的无监督声学词嵌入

本文提出了一种基于编码器 - 解码器一一对应自编码器 (EncDec-CAE) 的无监督学习方法，用于从可变长度的语音以及无标签的语音数据中提取出与固定维度表示形式相对应的词嵌入，从而在无资源语音搜索、发现和索引系统中发挥重要作用，并在词辨别任务中相对于最接近的竞争对手提高了 24% 的平均精度。

Nov, 2018

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023

利用多语言迁移学习进行无监督语义声学词嵌入

本文研究了声学词嵌入，探索了语义学声学词嵌入，并提出了一种基于多语种转移的语义学声学词嵌入方法，能够显著提高词汇相似性任务的表现，并且能够用于语义检索。

Jul, 2023

基于自编码器的声学词嵌入分析

本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性，展示了其表示空间中包含单词的绝对时长和说话者信息，且在这些 AWE 的表示空间内，单词的嵌入距离会随着它们的语音差异而增加，且表现出词语起始偏置，证明了 AWE 作为认知科学中一个有潜力的工具，在连接语音处理和词汇记忆方面具有良好的前景。

Apr, 2020

无监督单词分段的分段对比预测编码

本文提出了一个用于零资源语音处理的新的模型，称为分段对比预测编码，能够对音频信号的帧级和更高级别的分组进行编码，并将此模型用于音素和单词分割，结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。

Jun, 2021

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020