Feb, 2024

关于大型语言模型在推理和规划任务上的自验证局限性

TL;DR通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。