Feb, 2024

CogBench:一个大型语言模型进入心理学实验室

TL;DR大型语言模型在人工智能领域取得了显著进展,然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具,包含七项认知心理学实验中衍生出的十项行为度量指标,并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外,本研究还探讨了提示工程技术的影响,发现链式思路提示能够改善概率推理,而退一步思考提示则促进了基于模型的行为。