Jun, 2024

使用音频启动大型语言模型进行通用语音摘要

TL;DR利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域的口述内容,并通过变化语言模型提示策略产生不同风格的摘要,实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。