基于分段经验输出分布匹配的无监督语音识别
本研究提出了一种自监督表示学习模型,用于无监督音素边界检测,该模型是一个卷积神经网络,直接在原始波形上进行操作,利用噪声对比估计原则优化识别信号中的频谱变化,并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明,该方法优于基线模型,并在两个数据集上达到了最先进的性能,同时使用额外未转录数据有助于模型表现。
Jul, 2020
应用迁移学习到音素分割任务中,在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积,操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型,分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到,有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。
Nov, 2022
提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法,通过将有潜力的单词段嵌入固定维度的声学向量空间,并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记,模型在连接数字识别任务中取得约 20% 的错误率,优于基于 HMM 的系统。
Mar, 2016
该研究论文提出了一种基于序列预测模型的新型无监督算法,利用训练预测语音特征的模型的错误分析,从 MFCC 空间中学习语音动态,并从预测误差的局部最大值中发现语音边界,以提高语音识别准确性。该方法在 TIMIT 数据集上得到了有效评估和改进。
Aug, 2016
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近 20% 的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法,针对多个讲话者的语音数据进行了初步探索,最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。
Jun, 2016
本文探究了使用神经网络和参数化结构化损失函数进行音素边界检测的方法,通过实验表明该方法的性能优于基准模型,使用音素翻译可以稍微提高性能并显著提高收敛速度,并在希伯来语语料库中进行了进一步的评估,表明在多语言环境下使用音素翻译可以获得更好的效果。
Feb, 2020
本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法,其中采用自底部方法探索单元发现,从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果,并且在 ZeroSpeech 基准上优于以前的系统。
Feb, 2022
无监督自动语音识别(ASR)的关键问题是在没有成对的语音 - 文本数据监督的情况下,学习语音信号与其相应的文本转录之间的映射。本文提出了一种名为 REBORN 的方法,用于无监督 ASR,通过交替训练分割模型和音素预测模型来学习语音和文本之间的映射,以提高无监督 ASR 的性能。
Feb, 2024