AI 科学家的 “图灵测试

May, 2024

"Turing Tests" For An AI Scientist

Xiaoxin Yin

TL;DR通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究，这篇论文在提供特定问题的交互式库或数据集的前提下，提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准，并激发对这个激动人心领域的进一步研究。

Abstract

While llms have shown impressive capabilities in solving math or coding problems, the ability to make scientific discoveries remains a distinct challenge. This paper proposes a "→

llms turing test ai scientist scientific discoveries benchmark tests

发现论文，激发创造

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

Allen AI 科學挑戰：超越圖靈測試

本文介绍了 Allen AI 科学挑战赛及其在人工智能系统接近人类智能方面的结果与收获。

Apr, 2016

AI 知识与推理：在科学研究中模拟专家的创造力

通过研究 589 份发表于四本领先心理学期刊的研究论文，我们调查了现代人工智能是否能够模仿专家在复杂科学领域的创造力，并介绍了一种新的方法论，利用 AI 的训练截止日期之后发表的原创研究文章，确保没有事先接触，减轻死记硬背和事先训练的担忧。结果显示，AI 能够擅长理解专业研究、演绎推理以及评估证据与结果之间的一致性，这些是人类专业领域专家和创造力的认知特征。这些发现表明通用人工智能在转变学术界方面的潜力，需要基于知识的创造力的角色越来越容易被技术所替代。

Apr, 2024

迈向下一代人工智能：催化神经 AI 革命

研究人员提出要加快人工智能领域的发展，必须在神经人工智能的基础研究上投资，其中核心是实体图灵测试，要求人工智能的动物模型实现与其动物同类水平的感知运动交互，这将提供下一代人工智能的发展路线图。

Oct, 2022

AI - 机器人系统在科学发现中的应用

自动化整个科学方法论需要数据归纳的自动化以及实验从设计到实施的自动化，机器人科学家是将人工智能和实验室机器人相结合，具备进行真实世界实验检验假设的能力。本章探讨了机器人科学家在科学哲学中的基本原理，并将其活动与机器学习范式相对应，认为科学方法与主动学习有类似之处。我们使用以往机器人科学家的案例以及 Genesis 的案例进行实证，Genesis 是一种面向系统生物学研究的下一代机器人科学家，具备 1000 个计算机控制的微生物反应器的微流控系统和基于可控词汇和逻辑的可解释模型。

Jun, 2024

面向语言驱动的科学人工智能

基于 AI 在自然语言理解和生成方面的革命性进展，我们设计了能够解决复杂科学任务的 AI 系统，并将自然语言作为 AI 与人类科学家之间的核心表示、推理和交换格式。本文旨在探讨实现这一愿景所面临的主要研究挑战。

Oct, 2022

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022

在人工智能代理中评估科学思维

孩子们表现出惊人的学习和思考能力，与形式化的研究中的科学推理方法非常相似。本研究利用 Blicket 检测建立了交互式 EST 环境，旨在评估人工智能的科学思维能力，研究发现今天的学习方法在科学思考中具有低效性，需要未来的研究来构建人类类似的智能。

Jun, 2022

生成模型的统计图灵测试

通过统计模式识别语言提供了一个框架，量化了针对评估上下文的人类生成内容和机器生成内容之间的差异，描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。

Sep, 2023

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023