Feb, 2024
关于大型语言模型在推理和规划任务上的自验证局限性
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks
Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati
TL;DR通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。