关于机器人和人工智能中基准、标准和认证之间的关系
在这篇论文中,作者从道德哲学和元伦理学的研究中引用论述,提出了在当前没有一套能度量 AI 系统 “伦理性” 的指标和测量方式的情况下,将 AI 系统的考虑转变为 “价值观” 而非 “伦理学”,强调了价值观的相对性,这种思路会为开展 AI 系统的安全研究和有益研究提供新的方法。
Apr, 2022
本篇论文探讨了 AI 领域中对少量标准基准的高度评价,指出这种基准的限制并揭示了它们的建构效度问题,从而推动通向灵活且具有普适性 AI 系统的长期目标的进展。
Nov, 2021
本文批判性地探讨了监管在 AI 领域中抑制创新的观点,讨论了目前 AI 监管的趋势,特别是提出的欧洲 AI 法案及支持其实施的标准,分析和批判了支持监管抑制创新观点,并提出了替代性观点,阐明监管和标准如何促进 AI 领域的创新。
Feb, 2023
本文旨在将计量科学应用于人力(群体)评估中,以加强测量人工智能系统性能的科学,并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例,采用计量学来对基准数据集进行基准测试。
Nov, 2019
机器学习在工业系统中的应用以及其安全性和合规性对于决策辅助等关键功能具有重要意义,然而,当前机器学习组件的低形式化程度和不确定性使得使用传统的关键系统工程方法难以验证和验证其安全性,因此需要制定适用于人工智能的规范和监管标准,提出可信的人工智能认证方法和工具。
Sep, 2023
建立 AI 审计标准委员会以开发和更新与 AI 技术发展相适应的审计方法和标准,以确保审核实践保持相关、健壮并能对 AI 的快速进展做出响应,此举有助于维护公众对 AI 的信任,促进 AI 行业的安全和伦理责任文化的发展。
Apr, 2024
人工智能的基准测试至关重要,但过度适应、饱和以及数据集集中化等问题已引起人们的关注。我们提出了一种方法来创建全球基准测试创作和饱和的简化地图,其中包括覆盖计算机视觉和自然语言处理的 3765 个基准测试的数据。我们发现许多基准测试很快趋于饱和,而其他一些则无法得到广泛利用。未来的基准测试应强调多功能性、广度和实用性。
Mar, 2022
本文提出了一种新的公平得分和标准操作程序,用于发放公平认证,以确保人工智能系统是公平的,避免偏见、提高可信度。发放公平认证在商业部署中具有操作框架和促进公平概念的优点。通过多个数据集迭代培训模型并比较受保护属性中的比较偏见,验证了提出的框架的正确性。
Jan, 2022
通过对 rigorous experiment designs 的计算成本的探究,本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。
Jun, 2024
该研究介绍了智能系统自识别反馈信号的必要性,提出了基于算法信息理论的智能定义,阐明了人工智能基准测试的重要性,介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC,用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。
Nov, 2019