Feb, 2023

汉英双语中,使用改进的装订器增强音像 HUBERT 的实践

TL;DR该论文介绍了一种混合方法,名为 conformer-enhanced AV-HuBERT,该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT,在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7%和 16%。除此之外,该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS,通过预先训练,该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统,在 MISP 和 CMLR 上分别减少了 7%和 6%的 CER。