人类和机器科学理解的基准创建
该研究介绍了智能系统自识别反馈信号的必要性,提出了基于算法信息理论的智能定义,阐明了人工智能基准测试的重要性,介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC,用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。
Nov, 2019
本文提出了一种基于概念的评估方法,通过探究一个系统在多个实例中应用给定概念的能力来评估。作者以 RAVEN 和 ARC 为例进行了案例研究。研究发现,这种基于概念的评估方法揭示了传统测试集所隐藏的 AI 系统的信息。
Jun, 2022
在人工智能时代,人类复杂推理对于科学发现仍然至关重要,但可以通过可解释的人工智能利用人工智能系统来进行科学发现。具体而言,了解人工智能系统用于做出决策的数据可以与领域专家和科学家进行接触,并在给定的科学问题上产生不同或相同的观点。这些观点可能会引发进一步的科学调查,从而产生新的科学知识。这种方法可以满足应用科学中的可信度要求,如医学。
Jun, 2024
现代生命科学研究越来越依赖于人工智能方法来模拟生物系统,主要集中在使用机器学习模型上。然而,机器学习在生物科学中的广泛应用表明其与传统科学探究方法存在显著差异,这种相互作用对未来的科学研究具有重要意义,但却受到较少关注。在本研究中,我们借鉴认识论工具集,将机器学习在生物科学中的最新应用放入现代哲学理论的框架下,以识别可指导机器学习系统为生物现象建模和推动科学知识进展的一般原则。我们提出,科学理解作为信息压缩、定性可理解性和依赖关系建模的概念,为解释机器学习介导的生物系统理解提供了有用的框架。通过对现代生物研究中机器学习的两个关键应用领域 —— 蛋白质结构预测和单细胞 RNA 测序的详细分析,我们探讨了这些特征迄今如何使机器学习系统推进对目标现象的科学理解,以及它们如何指导未来机器学习模型的发展,以及阻碍机器学习实现其作为生物发现工具潜力的关键障碍。考虑机器学习在生物学应用中的认识论特征将改善这些方法解决重要问题和推进对生命系统科学理解的前景。
Mar, 2024
通过使用过程生成的三维动画构建了一个基准测试,并通过人类评分验证了该基准测试,结果表明,要在人类水平上通过基础直觉心理学的设计测试,模型必须获得或具有代理计划的内置表示,该测试结构围绕四个场景,并比较了两个强大的基线建立在贝叶斯逆规划和心灵理论神经网络上。
Feb, 2021
语言是理解和交流情境的关键,而语言处理系统使用类似人脑的神经网络以及查询注意力等方法来提高其能力,但当前的模型主要集中在内部语言任务上,限制其理解情境的能力,因此需要未来的模型应用认知神经科学和人工智能来扩展理解任务。
Dec, 2019
本文旨在将计量科学应用于人力(群体)评估中,以加强测量人工智能系统性能的科学,并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例,采用计量学来对基准数据集进行基准测试。
Nov, 2019
通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究,这篇论文在提供特定问题的交互式库或数据集的前提下,提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准,并激发对这个激动人心领域的进一步研究。
May, 2024