无监督单词分段的分段对比预测编码

Jun, 2021

无监督单词分段的分段对比预测编码

Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation

Saurabhchand Bhati, Jesús Villalba, Piotr Żelasko, Laureano Moro-Velazquez, Najim Dehak

TL;DR本文提出了一个用于零资源语音处理的新的模型，称为分段对比预测编码，能够对音频信号的帧级和更高级别的分组进行编码，并将此模型用于音素和单词分割，结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。

Abstract

Automatic detection of phoneme or word-like units is one of the core objectives in zero-resource speech processing. Recent attempts employ self-supervised training methods, such as →

zero-resource speech processing self-supervised training methods contrastive predictive coding segmental contrastive predictive coding phoneme and word segmentation

发现论文，激发创造

使用分段对比预测编码进行无监督语音分割和可变速率表示学习

该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务，并发现了连续元音或半元音之间的边界是最难识别的，从而可以在较低的特征提取率下提取出更好的语音特征。

Oct, 2021

无监督分割和分类音素和单词的对比预测策略

本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明，现有算法在分类和分割性能上存在平衡。为了弥合这种差距，我们借鉴了在分割方面较好的方法，并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中，提高了在所有分类指标上的性能，并在单词分割方面取得了最先进的性能。

Oct, 2021

变率分层 CPC 用于语音中的声学单位发现

本文通过自监督学习探索了多层对比预测编码 (CPC) 模型对语音的分层表示，提出了一种基于不均匀下采样的模型，通过聚焦负采样和量化目标等方法增强了其对深度、离散性的优化，从而在 speech recognition 任务上得到了更好的效果，同时也实现了语音信号的有效分割。

Jun, 2022

自监督对比学习用于无监督音素切分

本研究提出了一种自监督表示学习模型，用于无监督音素边界检测，该模型是一个卷积神经网络，直接在原始波形上进行操作，利用噪声对比估计原则优化识别信号中的频谱变化，并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明，该方法优于基线模型，并在两个数据集上达到了最先进的性能，同时使用额外未转录数据有助于模型表现。

Jul, 2020

引导式对比自监督预训练在自动语音识别中的应用

本研究提出了一种名为 GCPC 的改进型 CPC 方法，可以注入先验知识并在 Tacotron2 上进行预训练，实验表明，相比于 CPC，该方法在德语，法语和英语等自动语音识别任务中均表现出更好的识别效果。

Oct, 2022

卷积神经网络神经预测编码实现演讲者特征无监督学习

本研究提供了一种新方法 —— 神经预测编码（NPC），以从大量无标注的训练数据中完全无监督地学习说话人特征，该方法利用了所提出的短期主动说话人平稳假设，即将两个时间上接近的短语音片段规定为同一说话人，从而训练卷积深度连体网络，通过学习区分在未标记的语音流数据中生成的 “相同” 和 “不同” 说话人对，生产 “说话人嵌入”，从而在短持续时间实验中表现最佳，并为完整话语实验提供补充信息。

Feb, 2018

基于对比预测编码特征的自动语音说话人验证

本论文介绍了基于对比性预测编码（CPC）特征的说话人验证的相关工作，重点是将 CPC 特征纳入标准的自动说话人验证系统中，并提出了相应的方法、实验和分析。同时还详细阐述了过去和最近的自动说话人验证系统工作、传统语音特征以及 CPC 背后的动机和技术等必要背景知识。

Apr, 2019

自监督语音表示作为无监督声学单词嵌入输入特征的比较

本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型，发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入，可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果，并且能跨语种使用。

Dec, 2020

小数据中音素预测编码模型的学习分析

本研究基于两个不同语言的数据集，研究了两种预测编码模型（APC 和 CPC）的行为，发现 CPC 模型在短时间内已经取得了更好的表现，其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。

Jul, 2020

动态规划和自监督评分在已发现的音素单元上的词语分割

本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法，其中采用自底部方法探索单元发现，从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果，并且在 ZeroSpeech 基准上优于以前的系统。

Feb, 2022