具有时间预测误差的盲音素切分
本文探究了使用神经网络和参数化结构化损失函数进行音素边界检测的方法,通过实验表明该方法的性能优于基准模型,使用音素翻译可以稍微提高性能并显著提高收敛速度,并在希伯来语语料库中进行了进一步的评估,表明在多语言环境下使用音素翻译可以获得更好的效果。
Feb, 2020
本研究提出了一种完全无监督的学习算法,可在不使用标记数据的情况下训练语音识别系统,其关键在于使用音位语言模型和输入话语。该算法在解决两个子问题 (即学习给定音位划分边界下的音位分类器和更新音位边界) 上交替进行,并在 TIMIT 数据集上获得了令人满意的性能提升。
Dec, 2018
本研究提出了一种自监督表示学习模型,用于无监督音素边界检测,该模型是一个卷积神经网络,直接在原始波形上进行操作,利用噪声对比估计原则优化识别信号中的频谱变化,并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明,该方法优于基线模型,并在两个数据集上达到了最先进的性能,同时使用额外未转录数据有助于模型表现。
Jul, 2020
应用迁移学习到音素分割任务中,在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积,操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型,分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到,有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。
Nov, 2022
研究了段落循环神经网络在端到端声学建模中的应用,不依赖于外部系统提供特征或分割边界,通过神经网络进行特征提取,具有自我完备性,可实现端到端训练,实验表明在语音识别领域中表现良好。
Mar, 2016
该论文提出了一种基于时间预测误差模型集成的无监督方法实现了符号音乐分割,该方法应用于 Essen Folksong 数据集上达到了最前沿的性能,其中使用了峰值检测算法选择段落候选,并聚合多个模型的预测达到最终的分割结果,但与有监督方法相比,该方法的表现仍有提升空间。
Jul, 2022
本文提出了一个用于零资源语音处理的新的模型,称为分段对比预测编码,能够对音频信号的帧级和更高级别的分组进行编码,并将此模型用于音素和单词分割,结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。
Jun, 2021
提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法,通过将有潜力的单词段嵌入固定维度的声学向量空间,并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记,模型在连接数字识别任务中取得约 20% 的错误率,优于基于 HMM 的系统。
Mar, 2016
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明,现有算法在分类和分割性能上存在平衡。为了弥合这种差距,我们借鉴了在分割方面较好的方法,并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中,提高了在所有分类指标上的性能,并在单词分割方面取得了最先进的性能。
Oct, 2021