改进特征的语音分割和词库学习再探

Jan, 2024

改进特征的语音分割和词库学习再探

Revisiting speech segmentation and lexicon learning with better features

Herman Kamper, Benjamin van Niekerk

TL;DR我们重新审视了一种自我监督的方法，将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始，进行零资源分割，而无需学习明确的词汇表。在第一阶段的声学单元发现阶段，我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后，我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means 对这些嵌入进行聚类，以获得一个词汇表。结果是具有良好覆盖率的分割，其词汇表在 ZeroSpeech 基准测试中达到了最先进的性能。

Abstract

We revisit a self-supervised method that segments unlabelled speech into word-like segments. We start from the two-stage duration-penalised dynamic programming method that performs zero-resource segmentation without learning an explicit lexicon. In the first →

self-supervised method unlabelled speech segmentation duration-penalised dynamic programming method acoustic unit discovery hubert features

发现论文，激发创造

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

一种嵌入式分段 K-means 模型，用于语音的无监督分割与聚类

介绍了一个基于嵌入式分段 K 均值模型的新方法，用于语音分割和聚类，该模型与贝叶斯模型相比能够在更高效的情况下实现类似的分割和聚类效果，可用于零资源语音处理。

Mar, 2017

动态规划和自监督评分在已发现的音素单元上的词语分割

本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法，其中采用自底部方法探索单元发现，从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果，并且在 ZeroSpeech 基准上优于以前的系统。

Feb, 2022

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

使用关注力的无监督语音词语切分

这篇研究是对注意力词分割的首次尝试，通过从语音信号中直接进行词分割，最终目标是在低资源的口头语言中自动识别词汇单位。该方法假定在 UL 语言中的记录与资源充足的语言中的翻译相配对。使用声学单元发现（AUD）将语音转换为伪音段序列，然后使用神经机器翻译模型产生的神经软对齐来分割语音。该研究使用班图语 Mboshi 作为实际的 UL，并与单语和双语基线进行比较，说明了注意力词分割在语言记录方面的潜力。

Jun, 2018

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022