May, 2024

TIPAA-SSL: 基于自监督学习和知识迁移的文本无关电话音频对齐

TL;DR基于音素识别、表示学习和知识迁移,本文提出了一种新颖的文本无关音频对齐方法,利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示,取得了优于传统方法的统计指标表现,在语言学习和语音处理系统中有应用意义。