Mar, 2023

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

TL;DR本文提出了一种名为 Cocktail HuBERT 的自监督学习框架,通过掩蔽伪源分离目标来泛化到混合语音领域,从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低,并且在 SUPERB 中的单说话人和多说话人任务上表现优异。