May, 2023

通过自我评估引导解码的分解增强推理

TL;DR该研究提出了一种有效的提示方法,通过随机波束搜索融合自我评估指导,可以平衡生成链的质量 - 多样性权衡,并在少次学习的情况下,分别在 GSM8K、AQUA 和 StrategyQA 基准测试中比相应的 Codex-backboned 基线高出 6.34%、9.56%和 5.46%的准确度,同时通过细粒度推理又找到并解决了逻辑失误的问题,提高了一致性和鲁棒性。