Mar, 2022
WAVPROMPT: 冻结语言模型进行少样本口语理解
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models
Heting Gao, Junrui Ni, Kaizhi Qian, Yang Zhang, Shiyu Chang...
TL;DR介绍了一种名为 WavPrompt 的语音理解框架,该框架使用预先训练的自回归语言模型,通过微调一种 wav2vec 模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明,WavPrompt 在执行语音理解任务时表现出比朴素的文本基线更好的表现,并且能够提取更多的信息。