Jul, 2023

思维骨架:大型语言模型能够进行并行解码

TL;DR该研究旨在降低大型语言模型(LLMs)的端到端生成延迟,通过提出 “思维骨架”(SoT),该方法通过引导 LLMs 先生成答案的骨架,然后采用并行 API 调用或批量解码来同时完成每个骨架点的内容,从而显著提高速度(在 11 个不同的 LLMs 中高达 2.39 倍),在多个问题类别上潜在地提高答案的多样性和相关性。SoT 是一种以数据为中心的优化方法,展示了提升 LLMs 以更像人类思考的方式来提高答案质量的潜力。