Dec, 2023

运行大型语言模型上的认知评估:要注意的事项和不要做的事项

TL;DR本文描述了评估使用基于语言的行为评估方法来评估大型语言模型(LLMs)认知能力的研究方法考虑因素。作者通过三个案例研究(常识知识基准、心理理论评估和语法一致性测试)描述了在将认知测试应用于 LLM 时可能出现的常见问题。作者还列出了 10 个应避免和遵循的指导方针,以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用 LLMs 作为研究助理、以及对开放和封闭 LLMs 进行评估。总之,本文旨在为快速发展的 AI 心理学领域中的最佳实践做出贡献。