Oct, 2024

反思基准:通过反思探测人工智能的智能

TL;DR本研究针对大型语言模型(LLMs)在智能表现上缺乏反思能力的问题,提出了一套名为反思基准的综合性评估工具,包括七个任务,旨在测评核心认知功能。研究结果显示,当前的LLMs在反思能力方面表现不足,为未来研究提供了方向和启示,推动AI在环境互动中更可靠的表现。