人类和机器科学理解的基准创建

Apr, 2023

Towards a Benchmark for Scientific Understanding in Humans and Machines

Kristian Gonzalez Barman, Sascha Caron, Tom Claassen, Henk de Regt

TL;DR本文提出了一种基于科学哲学的框架，利用行为学概念来评估机器智能和人类的科学理解水平，并通过一组测试建立了科学理解基准，以便评估和比较不同方法和水平。

Abstract

scientific understanding is a fundamental goal of science, allowing us to explain the world. There is currently no good way to measure the scientific understanding of agents, whether these be humans or Artificial Intelligence systems. Without a clear →

scientific understanding benchmark philosophy of science information retrieval machine learning

发现论文，激发创造

关于人工智能在科学认知中的应用

本文探讨了人工智能在科学理解方面的贡献，阐述了其作为计算显微镜、灵感资源和未来的理解者三个维度，提出了新的推进人工智能在科学理解中的应用的途径。

Apr, 2022

智能的度量

该研究介绍了智能系统自识别反馈信号的必要性，提出了基于算法信息理论的智能定义，阐明了人工智能基准测试的重要性，介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC，用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。

Nov, 2019

评估概念抽象基准的理解能力

本文提出了一种基于概念的评估方法，通过探究一个系统在多个实例中应用给定概念的能力来评估。作者以 RAVEN 和 ARC 为例进行了案例研究。研究发现，这种基于概念的评估方法揭示了传统测试集所隐藏的 AI 系统的信息。

Jun, 2022

论机器理解

构建一个能够理解的机器的方法和机器理解程度的实验方法和建议。

May, 2024

科学目的解释黑盒子：在生成人工智能时代重新审视科学方法

在人工智能时代，人类复杂推理对于科学发现仍然至关重要，但可以通过可解释的人工智能利用人工智能系统来进行科学发现。具体而言，了解人工智能系统用于做出决策的数据可以与领域专家和科学家进行接触，并在给定的科学问题上产生不同或相同的观点。这些观点可能会引发进一步的科学调查，从而产生新的科学知识。这种方法可以满足应用科学中的可信度要求，如医学。

Jun, 2024

人工智能时代的生物学理解

现代生命科学研究越来越依赖于人工智能方法来模拟生物系统，主要集中在使用机器学习模型上。然而，机器学习在生物科学中的广泛应用表明其与传统科学探究方法存在显著差异，这种相互作用对未来的科学研究具有重要意义，但却受到较少关注。在本研究中，我们借鉴认识论工具集，将机器学习在生物科学中的最新应用放入现代哲学理论的框架下，以识别可指导机器学习系统为生物现象建模和推动科学知识进展的一般原则。我们提出，科学理解作为信息压缩、定性可理解性和依赖关系建模的概念，为解释机器学习介导的生物系统理解提供了有用的框架。通过对现代生物研究中机器学习的两个关键应用领域 —— 蛋白质结构预测和单细胞 RNA 测序的详细分析，我们探讨了这些特征迄今如何使机器学习系统推进对目标现象的科学理解，以及它们如何指导未来机器学习模型的发展，以及阻碍机器学习实现其作为生物发现工具潜力的关键障碍。考虑机器学习在生物学应用中的认识论特征将改善这些方法解决重要问题和推进对生命系统科学理解的前景。

Mar, 2024

AGENT：核心心理推理基准

通过使用过程生成的三维动画构建了一个基准测试，并通过人类评分验证了该基准测试，结果表明，要在人类水平上通过基础直觉心理学的设计测试，模型必须获得或具有代理计划的内置表示，该测试结构围绕四个场景，并比较了两个强大的基线建立在贝叶斯逆规划和心灵理论神经网络上。

Feb, 2021

将机器语言模型推广至人类水平的语言理解

语言是理解和交流情境的关键，而语言处理系统使用类似人脑的神经网络以及查询注意力等方法来提高其能力，但当前的模型主要集中在内部语言任务上，限制其理解情境的能力，因此需要未来的模型应用认知神经科学和人工智能来扩展理解任务。

Dec, 2019

人工智能计量学：从基准测试到仪器

本文旨在将计量科学应用于人力（群体）评估中，以加强测量人工智能系统性能的科学，并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例，采用计量学来对基准数据集进行基准测试。

Nov, 2019

AI 科学家的 “图灵测试

通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究，这篇论文在提供特定问题的交互式库或数据集的前提下，提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准，并激发对这个激动人心领域的进一步研究。

May, 2024