May, 2024

自学习识别器:面向语音基础模型的无监督适应

TL;DR我们提出了一个无监督适应框架,Self-TAught Recognizer (STAR),它利用无标签数据增强自动语音识别(ASR)系统在噪声和口音等多样的目标领域中的稳健性。STAR 基于基于 Transformer 相关架构和自回归解码的流行语音基础模型(例如 Whisper,Canary)进行开发。