REBORN: 强化学习边界分割与迭代训练用于无监督 ASR

Feb, 2024

REBORN: 强化学习边界分割与迭代训练用于无监督 ASR

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR

Liang-Hsuan Tseng, En-Pei Hu, Cheng-Han Chiang, Yuan Tseng, Hung-yi Lee...

TL;DR无监督自动语音识别（ASR）的关键问题是在没有成对的语音 - 文本数据监督的情况下，学习语音信号与其相应的文本转录之间的映射。本文提出了一种名为 REBORN 的方法，用于无监督 ASR，通过交替训练分割模型和音素预测模型来学习语音和文本之间的映射，以提高无监督 ASR 的性能。

Abstract

unsupervised automatic speech recognition (ASR) aims to learn the mapping between the speech signal and its corresponding textual transcription without the supervision of paired speech-text data. A word/phoneme in the speech signal is represented by a segment of speech signal with vari

unsupervised automatic speech recognition reborn segmentation model phoneme prediction model perplexity

发现论文，激发创造

自监督对比学习用于无监督音素切分

本研究提出了一种自监督表示学习模型，用于无监督音素边界检测，该模型是一个卷积神经网络，直接在原始波形上进行操作，利用噪声对比估计原则优化识别信号中的频谱变化，并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明，该方法优于基线模型，并在两个数据集上达到了最先进的性能，同时使用额外未转录数据有助于模型表现。

Jul, 2020

基于分段经验输出分布匹配的无监督语音识别

本研究提出了一种完全无监督的学习算法，可在不使用标记数据的情况下训练语音识别系统，其关键在于使用音位语言模型和输入话语。该算法在解决两个子问题 (即学习给定音位划分边界下的音位分类器和更新音位边界) 上交替进行，并在 TIMIT 数据集上获得了令人满意的性能提升。

Dec, 2018

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

无监督语音识别理论

本文提出了一个通用的理论框架，用于通过随机矩阵理论和神经切向核理论研究 ASR-U 系统的属性和解决超参数敏感性和训练不稳定等问题，并通过三类转换图上的合成语言的 ASR-U 实验提供强有力的理论依据。

Jun, 2023

无监督自回归模型用于语音表示学习

本文提出了一种新颖的无监督自回归神经模型，用于学习通用的语音表示，通过无需音素或单词边界标签的方法，从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能，并且我们的分析表明，不同级别的语音信息由我们的模型在不同层次上捕获。

Apr, 2019

通过与迭代精化的隐马尔可夫模型协调的生成对抗网络实现完全无监督语音识别

本研究使用生成对抗网络和隐马尔可夫模型开发了一种适用于低资源语言的无监督语音识别方法，并在 TIMIT 数据集上实现了 33.1% 的电话错误率，比现有技术提高了 8.5%。

Apr, 2019

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022