基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化

May, 2023

基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化

Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Mode

Puyuan Peng, Shang-Wen Li, Okko Räsänen, Abdelrahman Mohamed, David Harwath

TL;DR本文提出了一种自我监督语音模型训练方法，可以自动检测语音中的音节边界并对同一音节进行聚类，该模型不仅在英语上表现优异且能够泛化到其他语言，实现了零样本学习，且在四种语言上实现了词分割任务的零样本迁移，胜过了之前的最佳成果。

Abstract

In this paper, we show that representations capturing syllabic units emerge when training a self-supervised speech model with a visually-grounded training objective. We demonstrate that a nearly identical model architecture (HuBERT) trained with a masked language modeling loss does not

self-supervised speech model syllable boundaries detection clustering method zero-shot generalization word segmentation

发现论文，激发创造

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

SD-HuBERT：自蒸馏在 HuBERT 中引发音节组织

在自监督学习中，通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数，在没有任何监督的情况下，对预训练的 HuBERT 进行微调，并添加一个汇总整个句子的聚合器标记。实验结果表明，该模型在语音中画定了明确的边界，并且帧之间的表示显示出显著的音节结构。此外，我们提出了一个用于评估语音句子级表示的新的基准任务，即 “Spoken Speech ABX”。与先前的模型相比，我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织，而不依赖外部标签或模态，并可能为口语语言建模提供新的、基于数据的单元。

Oct, 2023

从视觉语言到学习层级离散语言单元

本文中提出了一种通过将向量量化层整合到基于视觉语音的神经模型中来学习离散语言单元的方法。我们展示了我们的方法可以捕捉到单词级别和子词级别的单元，我们还将子词单元应用到了 ZeroSpeech 2019 挑战中，取得了较好的结果。

Nov, 2019

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

自监督语音模型探测音素和音位信息：以送气现象为案例研究

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

该研究探索了使用单个模型的句子级多语种视觉语音识别，通过将视觉语音单元离散化作为输入，基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练，结合曲线学习改善语音识别中的视觉信息缺失，实现了与以往特定语言视觉语音识别模型相当的性能。

Jan, 2024

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

自我监督的语音模型对单词的了解程度如何？

本研究发现，不同的自监督语音模型可以在不同的层次编码语言特征，在中间层最大程度地捕获了词级的信息，同时在较高层保留了发音等低层次信息，并用在无额外参数的情况下测试了这些模型的层次表现，同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。

Jun, 2023

改进特征的语音分割和词库学习再探

我们重新审视了一种自我监督的方法，将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始，进行零资源分割，而无需学习明确的词汇表。在第一阶段的声学单元发现阶段，我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后，我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means 对这些嵌入进行聚类，以获得一个词汇表。结果是具有良好覆盖率的分割，其词汇表在 ZeroSpeech 基准测试中达到了最先进的性能。

Jan, 2024