从纽约州州立考试 F 到 A:Aristo 项目概述
通过基于大规模的大学课程考试数据训练的神经网络模型,在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性,这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。
May, 2024
建立一种能够通过文本或语音回答学生问题的 AI 系统,旨在帮助帮助缓解整个非洲教师短缺的现状,并提供优质教育。Ghana's National Science and Maths Quiz(NSMQ)竞赛被认为是衡量此类 AI 潜力的非洲环境下的理想基准和挑战。本文首次提出建立一个 AI 大挑战赛,旨在利用 Ghana's National Science and Maths Quiz(NSMQ)竞赛作为案例研究,在非洲改善优质教育。
Jan, 2023
本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题,使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0,该数据集对比现有的深度学习模型难度更大(例如 T5-based Unicorn,精度达到 70.2%,而 GPT-3 只有 52.9%),但与人类表现相差甚远(94.1%)。
Jan, 2022
本文着重探讨人工智能(AI)和机器学习(ML)在科学评估中的转变作用,强调科学评估需要从概念学习转向知识运用,并介绍了基于 ML 的科学评估的现状、准确性评分框架以及未来方向和挑战。
Apr, 2024
NSMQ AI 项目旨在构建人工智能来参加并赢得加纳国家科学和数学竞赛(NSMQ)。该项目的目标是解决能否让人工智能参与并赢得这项年度生物、化学、物理和数学竞赛的问题,并对具体的团队,目前所取得的进展以及下一步计划进行了概述,计划于 2023 年 10 月正式推出并为 2023 年的 NSMQ 比赛做出亮相。这个能够征服这个宏大挑战的人工智能对教育领域将产生实际影响,如让非洲的数百万学生能够通过这个人工智能获得个别的学习支持。
Aug, 2023
在这篇研究论文中,我们提倡课程和考试在人工智能时代必须基于两个因素进行设计:人工智能的优势和局限性,以及教育目标。我们解释了如何根据人工智能的优势和局限性设计课程和考试,并提供了 IT、英语和艺术领域的不同示例。我们还介绍了受苏格拉底教学方法启发的教学方法,并展示了 2022 年 12 月至 2023 年 3 月间进行的七场 ChatGPT 授权考试的数据分析结果。最后,我们提出了一种新的考试系统,以在人工智能时代应用我们的教学方法。
Jul, 2023
通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究,这篇论文在提供特定问题的交互式库或数据集的前提下,提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准,并激发对这个激动人心领域的进一步研究。
May, 2024
本文提出了一种新的答题框架,其使用两个上下文知识图谱中的神经嵌入来解决自然科学考试问题,该模型在 AI2 Reasoning Challenge 上表现出优异的性能。
May, 2018
通过研究 589 份发表于四本领先心理学期刊的研究论文,我们调查了现代人工智能是否能够模仿专家在复杂科学领域的创造力,并介绍了一种新的方法论,利用 AI 的训练截止日期之后发表的原创研究文章,确保没有事先接触,减轻死记硬背和事先训练的担忧。结果显示,AI 能够擅长理解专业研究、演绎推理以及评估证据与结果之间的一致性,这些是人类专业领域专家和创造力的认知特征。这些发现表明通用人工智能在转变学术界方面的潜力,需要基于知识的创造力的角色越来越容易被技术所替代。
Apr, 2024