Mar, 2024

从正确性学习,无需提示使 LLM 高效推理

TL;DR利用多步骤推理方法和生成概率的置信度度量,我们提出了一种内在的自我纠正推理框架,无需人类反馈、外部工具和手工提示,在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能,同时减少了令牌的使用。