May, 2023

ChatGPT 是否能捍卫真相?自动辩证评估揭示了大语言模型推理中的不足

TL;DR我们探讨了如何通过进行辩论式的对话来测试大型语言模型(LLM)的推理能力,以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明,尽管 ChatGPT 等模型一开始可以生成正确的解决方案,但在面对荒谬的无效论据时,它们无法保持对真理的信仰。