LLM认知能力的高效测量：自适应测试视角

Jun, 2023

LLM认知能力的高效测量：自适应测试视角

Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing Perspective

Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv...

TL;DR提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对ChatGPT等6种模型进行了细粒度诊断，并通过不同测试发现GPT4模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Abstract

large language models (LLMs), like ChatGPT, have shown some human-like cognitive abilities. For comparing these abilities of different models, several benchmarks (i.e. sets of standard test questions) from differ

发现论文，激发创造

LLM是否为万能大师？：探究LLM对领域无关推理技能

本研究旨在探究大型语言模型在不同推理任务上的表现，并发现它们在类比和道德推理方面表现出色，而在空间推理任务方面则表现不佳。

Mar, 2023

LLM认知判断与人类不同

GPT-3和ChatGPT在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

探索大型语言模型的认知知识结构：一种教育诊断评估的方法

通过使用教育诊断评估方法，本研究在MoocRadar上进行评估，这是一个基于布鲁姆分类法的人工测试数据集，旨在揭示大型语言模型的知识结构并了解其认知能力的差异模式，从而为研究人员在LLMs的知识方面提供更明确、更有效的发展和利用。

Oct, 2023

LLM的神秘与魅力：对新能力的解释与分析的全面调查

对大型语言模型的现象能力进行解释和分析的广泛调查，包括宏观和微观两个层面的研究，并强调了相关挑战和未来研究的潜在方向。

Nov, 2023

运行大型语言模型上的认知评估：要注意的事项和不要做的事项

本文描述了评估使用基于语言的行为评估方法来评估大型语言模型（LLMs）认知能力的研究方法考虑因素。作者通过三个案例研究（常识知识基准、心理理论评估和语法一致性测试）描述了在将认知测试应用于LLM时可能出现的常见问题。作者还列出了10个应避免和遵循的指导方针，以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用LLMs作为研究助理、以及对开放和封闭LLMs进行评估。总之，本文旨在为快速发展的AI心理学领域中的最佳实践做出贡献。

Dec, 2023

关于大型语言模型、智能机器与知识获取的观点

本文探讨了大型语言模型（LLMs）在知识生成方面的能力与人类理解抽象概念的能力之间的差距。通过分析GPT-4在科学、数学和常识推理方面的回答，揭示了其在模仿人类推理的限制，指出人类理解基于少量抽象概念这一关键差异，进而讨论了LLMs对人类知识获取和教育的影响。

Aug, 2024

CogLM：大型语言模型的认知发展跟踪

本研究针对大型语言模型（LLMs）在认知能力上的发展进行评估，填补了相关研究的空白。通过构建基于皮亚杰认知发展理论的CogLM基准，研究发现高级LLMs（如GPT-4）展现出类似20岁人类的认知能力，并指出参数规模和优化目标是影响LMMs认知水平的关键因素。这些发现有助于指导LLMs未来的演进方向。

Aug, 2024

大型语言模型与认知科学：相似性、差异性及挑战的全面评述

本综述研究了大型语言模型（LLMs）与认知科学交叉领域的相似性与差异性，分析了LLMs的认知能力评估方法及其作为认知模型的潜力。主要发现是LLMs在认知科学研究中的应用提供了重要见解，并指出了LLMs在与人类认知对齐过程中的挑战及未来研究方向。

Sep, 2024

大语言模型与认知科学：相似性、差异性与挑战的全面评述

本研究探讨了大语言模型（LLMs）与人类认知过程之间的相似性与差异性，填补了这一领域的研究空白。文章提出了一种评估LLMs认知能力的新方法，并指出了LLMs作为认知模型的潜力。研究结果强调了LLMs在理解人工智能及人类智能方面的重要性，并提出了未来研究方向。

Sep, 2024

大型语言模型与认知科学：相似性、差异性及挑战的综合评审

本研究探讨了大型语言模型（LLMs）与认知科学的交集，分析了LLMs与人类认知过程之间的相似性和差异性。研究的主要发现是，尽管LLMs表现出某些认知能力，但仍存在认知偏见与局限性，需要进一步研究和改进，以推动理解人工智能与人类智能的进步。

Sep, 2024