基于分段经验输出分布匹配的无监督语音识别

ICLRDec, 2018

基于分段经验输出分布匹配的无监督语音识别

Unsupervised Speech Recognition via Segmental Empirical Output Distribution Matching

Chih-Kuan Yeh, Jianshu Chen, Chengzhu Yu, Dong Yu

TL;DR本研究提出了一种完全无监督的学习算法，可在不使用标记数据的情况下训练语音识别系统，其关键在于使用音位语言模型和输入话语。该算法在解决两个子问题 (即学习给定音位划分边界下的音位分类器和更新音位边界) 上交替进行，并在 TIMIT 数据集上获得了令人满意的性能提升。

Abstract

We consider the problem of training speech recognition systems without using any labeled data, under the assumption that the learner can only access to the input utterances and a phoneme language model estimated from a non-overlapping corpus. We propose a fully →

speech recognition unsupervised learning phoneme classifier timit dataset segmental structures

发现论文，激发创造

自监督对比学习用于无监督音素切分

本研究提出了一种自监督表示学习模型，用于无监督音素边界检测，该模型是一个卷积神经网络，直接在原始波形上进行操作，利用噪声对比估计原则优化识别信号中的频谱变化，并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明，该方法优于基线模型，并在两个数据集上达到了最先进的性能，同时使用额外未转录数据有助于模型表现。

Jul, 2020

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016

通过对音频嵌入进行对抗学习映射关系实现完全无监督的音素识别

本文提出一种利用生成对抗网络进行无监督音素识别的方法，并取得了 36% 的准确率。

Apr, 2018

具有时间预测误差的盲音素切分

该研究论文提出了一种基于序列预测模型的新型无监督算法，利用训练预测语音特征的模型的错误分析，从 MFCC 空间中学习语音动态，并从预测误差的局部最大值中发现语音边界，以提高语音识别准确性。该方法在 TIMIT 数据集上得到了有效评估和改进。

Aug, 2016

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

可学习分段特征的音素边界检测

本文探究了使用神经网络和参数化结构化损失函数进行音素边界检测的方法，通过实验表明该方法的性能优于基准模型，使用音素翻译可以稍微提高性能并显著提高收敛速度，并在希伯来语语料库中进行了进一步的评估，表明在多语言环境下使用音素翻译可以获得更好的效果。

Feb, 2020

动态规划和自监督评分在已发现的音素单元上的词语分割

本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法，其中采用自底部方法探索单元发现，从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果，并且在 ZeroSpeech 基准上优于以前的系统。

Feb, 2022

REBORN: 强化学习边界分割与迭代训练用于无监督 ASR

无监督自动语音识别（ASR）的关键问题是在没有成对的语音 - 文本数据监督的情况下，学习语音信号与其相应的文本转录之间的映射。本文提出了一种名为 REBORN 的方法，用于无监督 ASR，通过交替训练分割模型和音素预测模型来学习语音和文本之间的映射，以提高无监督 ASR 的性能。

Feb, 2024