Oct, 2023

GPT-4 不自知错误:对推理问题的迭代提示分析

TL;DR本研究分析了大规模语言模型在迭代提示下解决图着色问题的能力,发现大规模语言模型在解决图着色问题和验证解答的效果都很差,且无论是来自大规模语言模型还是外部求解器的批评内容对迭代提示的性能影响不大,结果显示现有大规模语言模型的自我批评能力存在问题。