Jul, 2023

零样本领域敏感的语音识别与提示条件优化微调

TL;DR我们提出了一种方法,通过在给定的文本提示上条件生成,利用文本域信息创建领域敏感的语音识别模型。我们通过对预训练的端到端模型(Whisper)进行微调,从示范中学习文本示例,展示了这种能力可以推广到不同领域甚至不同的提示上下文,我们的模型在来自各种领域的未见数据集上的词误差率(WER)降低了最多33%,如医疗对话、空中交通管制通信和金融会议。考虑到音频-文本配对数据的有限可用性,我们进一步将我们的方法扩展到纯文本微调,以实现领域敏感性和领域适应性。我们证明了我们的纯文本微调模型也可以关注各种提示上下文,该模型在医疗对话数据集上的词误差率降低了最多29%。