Jul, 2023

利用语音识别能力激发大型语言模型

TL;DR通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。