探索大型语言模型的认知知识结构:一种教育诊断评估的方法
本研究通过贝叶斯和频率分析结合,从29个LLM的数据中分析出LLMs的能力结构,发现LLMs的能力不是单一的,而是可以被解释为三个能力:推理、理解和核心语言建模,并且这三个能力可以解释模型性能的高比例差异,可以用来指导模型的改进和评测。
Jun, 2023
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对ChatGPT等6种模型进行了细粒度诊断,并通过不同测试发现GPT4模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
本文描述了评估使用基于语言的行为评估方法来评估大型语言模型(LLMs)认知能力的研究方法考虑因素。作者通过三个案例研究(常识知识基准、心理理论评估和语法一致性测试)描述了在将认知测试应用于LLM时可能出现的常见问题。作者还列出了10个应避免和遵循的指导方针,以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用LLMs作为研究助理、以及对开放和封闭LLMs进行评估。总之,本文旨在为快速发展的AI心理学领域中的最佳实践做出贡献。
Dec, 2023
本文从新的角度为LLMs提供基本知识并评估其有效性,通过广泛实验得出结论:(1)在大多数任务中,声明性知识比过程性知识产生更多益处。(2)只有在简单逻辑推理任务中,过程性知识的收益才大于声明性知识。(3)随着预训练的进行和规模的增大,模型利用两种知识的能力显著提高,但速度不同。我们对这些发现进行了详细分析,为评估和增强大型语言模型提供了主要指导。
Mar, 2024
大型语言模型在教育环境中得到越来越广泛的应用,以为学生和教师提供个性化支持。然而,这些模型的整合引起了有关算法偏见的担忧,可能加剧教育不公平问题。本综述从传统机器学习生命周期的角度出发,提供了大型语言模型从初始开发到在教育应用中定制预训练模型的全面生命周期图。文章讨论了在教育背景下可能出现的偏见来源,并解释了为什么传统机器学习中的偏见度量无法迁移到教育中由大型语言模型生成的内容,因为文本是高维的,可能存在多个正确的回答,而定制回答可能是教学上合理而非不公平的。这篇综述旨在阐明大型语言模型应用中的复杂偏见现象,并为其评估提供实际指导,以促进教育公平。
Jun, 2024
本文探讨了大型语言模型(LLMs)在知识生成方面的能力与人类理解抽象概念的能力之间的差距。通过分析GPT-4在科学、数学和常识推理方面的回答,揭示了其在模仿人类推理的限制,指出人类理解基于少量抽象概念这一关键差异,进而讨论了LLMs对人类知识获取和教育的影响。
Aug, 2024
本研究针对大型语言模型(LLMs)在认知能力上的发展进行评估,填补了相关研究的空白。通过构建基于皮亚杰认知发展理论的CogLM基准,研究发现高级LLMs(如GPT-4)展现出类似20岁人类的认知能力,并指出参数规模和优化目标是影响LMMs认知水平的关键因素。这些发现有助于指导LLMs未来的演进方向。
Aug, 2024
本综述研究了大型语言模型(LLMs)与认知科学交叉领域的相似性与差异性,分析了LLMs的认知能力评估方法及其作为认知模型的潜力。主要发现是LLMs在认知科学研究中的应用提供了重要见解,并指出了LLMs在与人类认知对齐过程中的挑战及未来研究方向。
Sep, 2024
本研究探讨了大语言模型(LLMs)与人类认知过程之间的相似性与差异性,填补了这一领域的研究空白。文章提出了一种评估LLMs认知能力的新方法,并指出了LLMs作为认知模型的潜力。研究结果强调了LLMs在理解人工智能及人类智能方面的重要性,并提出了未来研究方向。
Sep, 2024
本研究探讨了大型语言模型(LLMs)与认知科学的交集,分析了LLMs与人类认知过程之间的相似性和差异性。研究的主要发现是,尽管LLMs表现出某些认知能力,但仍存在认知偏见与局限性,需要进一步研究和改进,以推动理解人工智能与人类智能的进步。
Sep, 2024