Nov, 2023

采用非成对数据实现大型语言模型的通用语音能力

TL;DR通过扩展 instruction-tuned Llama-2 模型的同时保持 LLM 的广泛能力范围,本研究提出了一种具备端到端通用语音处理和推理能力的模型。该模型可以使用音频提示代替文本进行对话,并且具备跨模态的能力,例如语音问答、语音翻译和音频摘要等。通过实验,我们证明了这种端到端的方法在建模回应时与或优于级联系统(语音识别器 + LLM),并且可以更好地利用对话中的先前上下文提供更好的结果。