Nov, 2023

快速的思维链:从并行解码中窥见未来,更快地得出答案

TL;DR本文提出了 FastCoT,这是一个基于并行解码的模型无关框架,通过使用大小可变的上下文窗口来同时进行并行解码和自回归解码,从而充分利用 GPU 计算资源。通过广泛实验证明,FastCoT 相对于常规方法可以将推理时间缩短近 20%,而性能只有微不足道的下降。此外,研究还展示了上下文窗口大小对不同任务具有相当大的鲁棒性。