May, 2023

基于发音无关聚类的自监督微调,用于改善内容表示

TL;DR提出了一个新的自监督学习方法 — 发音者无关聚类 (Spin),它使用 45 分钟的微调,能够聚类语音表示,并在原始和说话者扰动话语之间执行交换预测,从而分解说话者信息并保留内容表示,并在语音识别和声学单元发现方面优于现有方法。