Jun, 2024

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

TL;DR多模式语言模型通过扩展输入和输出序列,支持并行生成文本和语音,从而改善响应生成的延迟,并保持响应内容的质量。在口语问答任务上的实验证明,该方法进一步通过生成多个语音序列来减少延迟。