一种评估生成型人工智能思考质量的框架

Jun, 2024

一种评估生成型人工智能思考质量的框架

How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

PDF

Luke Zaphir, Jason M. Lodge, Jacinta Lisec, Dom McGrath, Hassan Khosravi

TL;DR通过 MAGE 框架，本研究旨在探索 LLM ChatGPT4 应用的能力，为教育工作者提供一个方法，以在其学科背景中系统地评估其评估的脆弱性，并提供特定和针对性的问题脆弱性指示，以评估关键思维技能的基础。

Abstract

generative ai such as those with large language models have created opportunities for innovative assessment design practices. Due to recent technological developments, there is a need to know the limits and capab

generative ai assessment design practices critical thinking skills equity mage framework

发现论文，激发创造

移动网络中生成式人工智能与批判性思维的融合调查

本研究旨在考察具备批判性思维能力的生成型人工智能算法的当前状态，并探讨其在移动网络中的潜在应用，以此为未来研究奠定基础。

Apr, 2024

生成 AI 作为元认知代理的研究：关于模拟 ICF 考试表现的人类参与者的比较混合方法研究

研究了大型语言模型与人类元认知在国际教练联合会（ICF）模拟考试中的元认知能力，结果发现大型语言模型在几个元认知指标上表现优于人类，尤其是在减少自负方面，但无论是语言模型还是人类在模糊场景中都缺乏适应性，倾向于遵循预先定义的决策框架。研究结果对开发辅助掌握教练能力的人工智能模拟器以及发展朝着更自主和直观的人工智能系统的元认知模块具有重要意义。

May, 2024

面向 AI 支持的知识发展环境的思想生成和测试

通过使用机器学习和大型语言模型，本论文介绍了一种知识工作者系统 Generate And Search Test，该系统能够高效地创建以前需要专家合作才能完成的解决方案。同时探讨了生成型人工智能和搜索引擎如何提供创意和验证事实、逻辑和语境，以消除人为偏见。

Jul, 2023

现在的机器能够思考吗？

本文探讨了生成式人工智能技术的应用领域和能力，重温了图灵关于 “思考机器” 的概念，分析了机器智能测试的重要性，同时指出人工智能机器展示了智能的多个方面，但也存在相应的疑虑和后果。

Jul, 2023

语言模型的批判性思维

本文提出了一种针对神经自回归语言模型的批判性思维课程的初步探索，为此我们介绍了一种综合语料库，并生成人工辩论文本进行训练和评估。结果显示，在核心辩论中进行预训练能够显著提高语言模型的推理能力。本文中介绍的人工辩论文本是构建 “语言模型的批判性思维课程” 的一个有前途的起点。

Sep, 2020

拆解学生书面评估中与人工智能的关键交互

人工智能（AI）已经成为社会不可或缺的一部分，但确保人类具备必要的批判性思维和 AI 素养技能以有效地与机器交互，并理解其能力和局限性，面临着一个关键挑战。本文通过使用理论模型和实证数据，提出了批判性学生与 AI 进行互动的概念化的第一步。我们的初步发现表明，在写作过程中人与 AI 之间存在缺乏深度互动的情况。我们认为这些结果可以为未来的学习者在与 AI 交互时培养深入的批判性思维提供更好的任务和工具设计方案。

Apr, 2024

学生能力还是 AI 欺骗？分析 ChatGPT 的评估能力并评估检测策略

通过评估 ChatGPT 在三门课程（CS1、CS2、数据库）上的性能，研究了生成式人工智能对学习和评估的破坏性影响，其几乎完美地完成了所有初级考核，现有的检测方法对识别人工智能解决方案的成功率有所不同，教师和助教使用启发式方法区分学生代码和 AI 代码的检测准确性不足，这些观察结果强调了需要改进评估和检测方法。

Nov, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

LLM 认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断，并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023

用生成式人工智能提升学术写作：框架，技术和注意事项

将人工智能融入学术写作的框架、模型和方法，提高学术写作的质量和效率，减轻沟通负担，赋予作者权力，加速发现，推动科学多样性。

Oct, 2023