无监督单词分段的分段对比预测编码
该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务,并发现了连续元音或半元音之间的边界是最难识别的,从而可以在较低的特征提取率下提取出更好的语音特征。
Oct, 2021
本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明,现有算法在分类和分割性能上存在平衡。为了弥合这种差距,我们借鉴了在分割方面较好的方法,并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中,提高了在所有分类指标上的性能,并在单词分割方面取得了最先进的性能。
Oct, 2021
本文通过自监督学习探索了多层对比预测编码 (CPC) 模型对语音的分层表示,提出了一种基于不均匀下采样的模型,通过聚焦负采样和量化目标等方法增强了其对深度、离散性的优化,从而在 speech recognition 任务上得到了更好的效果,同时也实现了语音信号的有效分割。
Jun, 2022
本研究提出了一种自监督表示学习模型,用于无监督音素边界检测,该模型是一个卷积神经网络,直接在原始波形上进行操作,利用噪声对比估计原则优化识别信号中的频谱变化,并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明,该方法优于基线模型,并在两个数据集上达到了最先进的性能,同时使用额外未转录数据有助于模型表现。
Jul, 2020
本研究提出了一种名为 GCPC 的改进型 CPC 方法,可以注入先验知识并在 Tacotron2 上进行预训练,实验表明,相比于 CPC,该方法在德语,法语和英语等自动语音识别任务中均表现出更好的识别效果。
Oct, 2022
本研究提供了一种新方法 —— 神经预测编码(NPC),以从大量无标注的训练数据中完全无监督地学习说话人特征,该方法利用了所提出的短期主动说话人平稳假设,即将两个时间上接近的短语音片段规定为同一说话人,从而训练卷积深度连体网络,通过学习区分在未标记的语音流数据中生成的 “相同” 和 “不同” 说话人对,生产 “说话人嵌入”,从而在短持续时间实验中表现最佳,并为完整话语实验提供补充信息。
Feb, 2018
本论文介绍了基于对比性预测编码(CPC)特征的说话人验证的相关工作,重点是将 CPC 特征纳入标准的自动说话人验证系统中,并提出了相应的方法、实验和分析。同时还详细阐述了过去和最近的自动说话人验证系统工作、传统语音特征以及 CPC 背后的动机和技术等必要背景知识。
Apr, 2019
本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型,发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入,可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果,并且能跨语种使用。
Dec, 2020
本研究基于两个不同语言的数据集,研究了两种预测编码模型(APC 和 CPC)的行为,发现 CPC 模型在短时间内已经取得了更好的表现,其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。
Jul, 2020
本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法,其中采用自底部方法探索单元发现,从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果,并且在 ZeroSpeech 基准上优于以前的系统。
Feb, 2022