CogLM:大型语言模型的认知发展跟踪
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对ChatGPT等6种模型进行了细粒度诊断,并通过不同测试发现GPT4模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
通过CogEval协议系统评估了八种大型语言模型的认知地图和规划能力,发现尽管对于较简单结构的规划任务表现出明显的竞争力,但系统评估揭示了规划任务的显著失效模式,包括无效轨迹的幻觉和陷入循环。这些发现不支持大型语言模型具备即用型规划能力的观点。
Sep, 2023
通过使用教育诊断评估方法,本研究在MoocRadar上进行评估,这是一个基于布鲁姆分类法的人工测试数据集,旨在揭示大型语言模型的知识结构并了解其认知能力的差异模式,从而为研究人员在LLMs的知识方面提供更明确、更有效的发展和利用。
Oct, 2023
我们通过测试11种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提示。我们认为,语言和心智理论的互相关联可能解释了指令调整模型的增加:奖励考虑到对话者和语境的合作性交流。最后,我们呼吁在LLMs中对心智理论保持一个细致的观点。
Oct, 2023
探讨了大型语言模型(LLMs)的认知动态及其在认知模拟方面的潜力,并提出了一个衡量LLMs认知动态的新基准CogBench和一个名为CogGPT的创新性迭代认知机制。通过实验证明,CogGPT在持续信息流下促进专门角色的认知动态方面相较现有方法表现出显著优势。
Jan, 2024
经验表明,大型预训练语言模型的新认知能力使其成为认知科学理论的候选模型。本研究通过心理测量学测试选择四组任务,对十个热门预训练语言模型进行评估,发现无论模型大小,PLMs的训练过程在人类认知发展的某个窗口期内表现出最高程度的一致性。在该窗口期之前,训练为模型提供了基础结构,使其能够迅速从经验中学习;而在该窗口期之后,训练似乎更多地用于工程目标而非科学目标。
Jul, 2024
本研究探讨了大型语言模型(LLM)在理解人类认知和语言习得辩论中的作用。作者提出,LLM并非一般学习者,而是经过训练和类似于自然选择的双重优化过程,揭示了LLM性能与人类认知偏见在语言习得中的重要性并不直接相关。此发现为语言习得的理论提供了新的视角和深远影响。
Aug, 2024
本综述研究了大型语言模型(LLMs)与认知科学交叉领域的相似性与差异性,分析了LLMs的认知能力评估方法及其作为认知模型的潜力。主要发现是LLMs在认知科学研究中的应用提供了重要见解,并指出了LLMs在与人类认知对齐过程中的挑战及未来研究方向。
Sep, 2024
本研究探讨了大语言模型(LLMs)与人类认知过程之间的相似性与差异性,填补了这一领域的研究空白。文章提出了一种评估LLMs认知能力的新方法,并指出了LLMs作为认知模型的潜力。研究结果强调了LLMs在理解人工智能及人类智能方面的重要性,并提出了未来研究方向。
Sep, 2024
本研究探讨了大型语言模型(LLMs)与认知科学的交集,分析了LLMs与人类认知过程之间的相似性和差异性。研究的主要发现是,尽管LLMs表现出某些认知能力,但仍存在认知偏见与局限性,需要进一步研究和改进,以推动理解人工智能与人类智能的进步。
Sep, 2024