人工智能计量学：从基准测试到仪器

Nov, 2019

人工智能计量学：从基准测试到仪器

Metrology for AI: From Benchmarks to Instruments

Chris Welty, Praveen Paritosh, Lora Aroyo

TL;DR本文旨在将计量科学应用于人力（群体）评估中，以加强测量人工智能系统性能的科学，并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例，采用计量学来对基准数据集进行基准测试。

Abstract

In this paper we present the first steps towards hardening the science of measuring ai systems, by adopting metrology, the science of measurement and its application, and applying it to human (crowd) powered eval

metrology ai systems human-powered evaluations measurement variance benchmark datasets

发现论文，激发创造

用心理测量评估通用人工智能

人工智能（AI）从任务特定到通用系统的发展，逐渐趋向于与人类的多样性。为了确保 AI 系统得到充分的评估，本文建议将心理测量学作为评估通用 AI 的核心，并提出相应的框架。

Oct, 2023

智能的度量

该研究介绍了智能系统自识别反馈信号的必要性，提出了基于算法信息理论的智能定义，阐明了人工智能基准测试的重要性，介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC，用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。

Nov, 2019

计量环境下的可信人工智能

国家物理实验室 (NPL) 在可信人工智能 (TAI) 领域进行的研究回顾，特别是在计量学，即测量科学的背景下，关于可信机器学习 (TML)。我们描绘了 TAI 的三个广泛主题：技术、社会技术和社会，这些主题在确保开发的模型可信且可以依赖于做出负责任决策方面起着关键作用。从计量学的角度，我们强调对不确定性的量化（UQ）及其在 TAI 框架中的重要性，以提高人工智能系统输出的透明度和信任度。然后，我们讨论了 NPL 在 TAI 中正在开展的三个研究领域，并探讨了 AI 系统认证与 TAI 特征的符合性。

Jun, 2024

关于 “基准化” 人工智能伦理的元伦理观点

在这篇论文中，作者从道德哲学和元伦理学的研究中引用论述，提出了在当前没有一套能度量 AI 系统 “伦理性” 的指标和测量方式的情况下，将 AI 系统的考虑转变为 “价值观” 而非 “伦理学”，强调了价值观的相对性，这种思路会为开展 AI 系统的安全研究和有益研究提供新的方法。

Apr, 2022

数据测量

本文旨在通过测量数据来量化机器学习数据和数据集的组成部分，以促进机器学习的系统构建和分析，使现代机器学习系统更加准确和可控，同时讨论了未来工作的许多途径、数据测量的局限性，以及如何在研究和实践中利用这些测量方法。

Dec, 2022

人工智能与整个世界的万物基准

本篇论文探讨了 AI 领域中对少量标准基准的高度评价，指出这种基准的限制并揭示了它们的建构效度问题，从而推动通向灵活且具有普适性 AI 系统的长期目标的进展。

Nov, 2021

教育测量中人工智能的崛起：机遇与伦理挑战

人工智能在教育测量中的整合革命了评估方法，通过机器学习和自然语言处理实现了自动化评分、快速内容分析和个性化反馈，为学生提供及时、一致的反馈和宝贵的学业表现洞察，从而增强了评估体验。然而，将人工智能应用于教育也带来了诸多伦理关切，涉及到有效性、可靠性、透明度、公平性和公正性等问题。算法偏倚和人工智能决策过程的不透明性等问题可能会将不平等问题持续下去并影响评估结果。为了应对这些关切，包括教育工作者、决策者和组织在内的各方利益相关者已制定了指南，以确保人工智能在教育中的道德使用。美国教育测量学会（NCME）的 AI 与教育测量特别兴趣小组（AIME）也致力于确立道德标准并推动该领域的研究。本文中，来自 AIME 成员的多样化团队审视了人工智能驱动教育测量工具的伦理影响，探讨了自动化偏倚和环境影响等重大挑战，并提出了解决方案，以确保人工智能在教育中的负责任和有效使用。

Jun, 2024

机器智能的正式度量

本文旨在将著名的人类智能概念的精髓进行数学形式化，以产生适用于任意机器的智能的普遍度量，这个度量从最广泛的合理意义上正式捕捉了机器智能的概念。

May, 2006

关于机器人和人工智能中基准、标准和认证之间的关系

基准测试，标准和认证是紧密相关的过程，本文通过基准测试，标准和认证的例子，讨论这三个相关过程对负责任创新的实践不仅有用而且至关重要。

Sep, 2023

人工智能基准创建和饱和的全球动态映射

人工智能的基准测试至关重要，但过度适应、饱和以及数据集集中化等问题已引起人们的关注。我们提出了一种方法来创建全球基准测试创作和饱和的简化地图，其中包括覆盖计算机视觉和自然语言处理的 3765 个基准测试的数据。我们发现许多基准测试很快趋于饱和，而其他一些则无法得到广泛利用。未来的基准测试应强调多功能性、广度和实用性。

Mar, 2022