从纽约州州立考试 F 到 A：Aristo 项目概述

Sep, 2019

从纽约州州立考试 F 到 A：Aristo 项目概述

From 'F' to 'A' on the N.Y. Regents Science Exams: An Overview of the Aristo Project

Peter Clark, Oren Etzioni, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra...

TL;DR本研究报告了 Aristo 系统在 8 年级纽约 Regents 科学考试和 12 年级的科学考试中，使用 NLP 方法在非图表多项选择题 (NDMC) 上均实现了历史性突破，证明了现代自然语言处理方法在一定程度上能够掌握此类任务。

Abstract

ai has achieved remarkable mastery over games such as Chess, Go, and Poker, and even Jeopardy, but the rich variety of standardized exams has remained a landmark challenge. Even in 2016, the best →

ai standardized exams aristo system nlp methods question-answering

发现论文，激发创造

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024

人工智能能否赢得加纳的国家科学和数学竞赛？教育的人工智能大挑战

建立一种能够通过文本或语音回答学生问题的 AI 系统，旨在帮助帮助缓解整个非洲教师短缺的现状，并提供优质教育。Ghana's National Science and Maths Quiz（NSMQ）竞赛被认为是衡量此类 AI 潜力的非洲环境下的理想基准和挑战。本文首次提出建立一个 AI 大挑战赛，旨在利用 Ghana's National Science and Maths Quiz（NSMQ）竞赛作为案例研究，在非洲改善优质教育。

Jan, 2023

Allen AI 科學挑戰：超越圖靈測試

本文介绍了 Allen AI 科学挑战赛及其在人工智能系统接近人类智能方面的结果与收获。

Apr, 2016

CommonsenseQA 2.0：通过游戏化揭示 AI 的局限性

本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题，使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0，该数据集对比现有的深度学习模型难度更大（例如 T5-based Unicorn，精度达到 70.2%，而 GPT-3 只有 52.9%），但与人类表现相差甚远（94.1%）。

Jan, 2022

人工智能与机器学习用于下一代科学评估

本文着重探讨人工智能（AI）和机器学习（ML）在科学评估中的转变作用，强调科学评估需要从概念学习转向知识运用，并介绍了基于 ML 的科学评估的现状、准确性评分框架以及未来方向和挑战。

Apr, 2024

构建 AI 赢得加纳国家科学和数学竞赛

NSMQ AI 项目旨在构建人工智能来参加并赢得加纳国家科学和数学竞赛（NSMQ）。该项目的目标是解决能否让人工智能参与并赢得这项年度生物、化学、物理和数学竞赛的问题，并对具体的团队，目前所取得的进展以及下一步计划进行了概述，计划于 2023 年 10 月正式推出并为 2023 年的 NSMQ 比赛做出亮相。这个能够征服这个宏大挑战的人工智能对教育领域将产生实际影响，如让非洲的数百万学生能够通过这个人工智能获得个别的学习支持。

Aug, 2023

人工智能时代高等教育课程的设计与传授：考试数据分析的启示

在这篇研究论文中，我们提倡课程和考试在人工智能时代必须基于两个因素进行设计：人工智能的优势和局限性，以及教育目标。我们解释了如何根据人工智能的优势和局限性设计课程和考试，并提供了 IT、英语和艺术领域的不同示例。我们还介绍了受苏格拉底教学方法启发的教学方法，并展示了 2022 年 12 月至 2023 年 3 月间进行的七场 ChatGPT 授权考试的数据分析结果。最后，我们提出了一种新的考试系统，以在人工智能时代应用我们的教学方法。

Jul, 2023

AI 科学家的 “图灵测试

通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究，这篇论文在提供特定问题的交互式库或数据集的前提下，提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准，并激发对这个激动人心领域的进一步研究。

May, 2024

KG^2: 使用上下文知识图嵌入学习科学考题推理

本文提出了一种新的答题框架，其使用两个上下文知识图谱中的神经嵌入来解决自然科学考试问题，该模型在 AI2 Reasoning Challenge 上表现出优异的性能。

May, 2018

AI 知识与推理：在科学研究中模拟专家的创造力

通过研究 589 份发表于四本领先心理学期刊的研究论文，我们调查了现代人工智能是否能够模仿专家在复杂科学领域的创造力，并介绍了一种新的方法论，利用 AI 的训练截止日期之后发表的原创研究文章，确保没有事先接触，减轻死记硬背和事先训练的担忧。结果显示，AI 能够擅长理解专业研究、演绎推理以及评估证据与结果之间的一致性，这些是人类专业领域专家和创造力的认知特征。这些发现表明通用人工智能在转变学术界方面的潜力，需要基于知识的创造力的角色越来越容易被技术所替代。

Apr, 2024