ICMLMay, 2023

自监督神经因子分析用于解开话语级语音表示的混杂信息

TL;DR通过聚类方法和因子分析模型,使用自监督学习的特征对 SSL 模型进行有监督微调,可用于说话人、情感和语言识别等级别任务,并提供更具有区分性的音频特征表示,此方法在 SUPERB 基准测试中表现良好。