自监督对比学习用于无监督音素切分

Jul, 2020

自监督对比学习用于无监督音素切分

Self-Supervised Contrastive Learning for Unsupervised Phoneme Segmentation

Felix Kreuk, Joseph Keshet, Yossi Adi

TL;DR本研究提出了一种自监督表示学习模型，用于无监督音素边界检测，该模型是一个卷积神经网络，直接在原始波形上进行操作，利用噪声对比估计原则优化识别信号中的频谱变化，并在测试时间通过峰值检测算法应用于模型输出以产生最终边界。结果表明，该方法优于基线模型，并在两个数据集上达到了最先进的性能，同时使用额外未转录数据有助于模型表现。

Abstract

We propose a self-supervised representation learning model for the task of unsupervised phoneme boundary detection. The model is a convolutional neural network that operates directly on the raw waveform. It is op

self-supervised representation learning unsupervised phoneme boundary detection convolutional neural network peak detection algorithm additional untranscribed data

发现论文，激发创造

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

无监督单词分段的分段对比预测编码

本文提出了一个用于零资源语音处理的新的模型，称为分段对比预测编码，能够对音频信号的帧级和更高级别的分组进行编码，并将此模型用于音素和单词分割，结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。

Jun, 2021

可学习分段特征的音素边界检测

本文探究了使用神经网络和参数化结构化损失函数进行音素边界检测的方法，通过实验表明该方法的性能优于基准模型，使用音素翻译可以稍微提高性能并显著提高收敛速度，并在希伯来语语料库中进行了进一步的评估，表明在多语言环境下使用音素翻译可以获得更好的效果。

Feb, 2020

基于分段经验输出分布匹配的无监督语音识别

本研究提出了一种完全无监督的学习算法，可在不使用标记数据的情况下训练语音识别系统，其关键在于使用音位语言模型和输入话语。该算法在解决两个子问题 (即学习给定音位划分边界下的音位分类器和更新音位边界) 上交替进行，并在 TIMIT 数据集上获得了令人满意的性能提升。

Dec, 2018

使用分段对比预测编码进行无监督语音分割和可变速率表示学习

该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务，并发现了连续元音或半元音之间的边界是最难识别的，从而可以在较低的特征提取率下提取出更好的语音特征。

Oct, 2021

REBORN: 强化学习边界分割与迭代训练用于无监督 ASR

无监督自动语音识别（ASR）的关键问题是在没有成对的语音 - 文本数据监督的情况下，学习语音信号与其相应的文本转录之间的映射。本文提出了一种名为 REBORN 的方法，用于无监督 ASR，通过交替训练分割模型和音素预测模型来学习语音和文本之间的映射，以提高无监督 ASR 的性能。

Feb, 2024

具有时间预测误差的盲音素切分

该研究论文提出了一种基于序列预测模型的新型无监督算法，利用训练预测语音特征的模型的错误分析，从 MFCC 空间中学习语音动态，并从预测误差的局部最大值中发现语音边界，以提高语音识别准确性。该方法在 TIMIT 数据集上得到了有效评估和改进。

Aug, 2016

基于对比学习和深度模块化的语音分离

研究使用对比学习建立框架的表示，并使用学到的表示在下游深度模块化任务中，自监督学习以最小化属于给定说话者的框架之间的距离，以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估，该技术的性能不会随着说话者数量的增加而显着降低。

May, 2023

无监督分割和分类音素和单词的对比预测策略

本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明，现有算法在分类和分割性能上存在平衡。为了弥合这种差距，我们借鉴了在分割方面较好的方法，并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中，提高了在所有分类指标上的性能，并在单词分割方面取得了最先进的性能。

Oct, 2021

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016