Jul, 2023

利用语音识别能力激发大型语言模型

TL;DR通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在Multilingual LibriSpeech上的实验证明,即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时,多语种ASR仍然可行,从而为LLMs在长篇音频中进行操作开辟了可能性。