Mar, 2022

WAVPROMPT: 冻结语言模型进行少样本口语理解

TL;DR介绍了一种名为 WavPrompt 的语音理解框架,该框架使用预先训练的自回归语言模型,通过微调一种 wav2vec 模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明,WavPrompt 在执行语音理解任务时表现出比朴素的文本基线更好的表现,并且能够提取更多的信息。