用心理测量评估通用人工智能
该研究介绍了智能系统自识别反馈信号的必要性,提出了基于算法信息理论的智能定义,阐明了人工智能基准测试的重要性,介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC,用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。
Nov, 2019
通过描述和评估不同的 AI 系统评估方式,本文首先关注传统的以任务为中心的评估方法,然后提出了能力为中心的新型评估方法,并探讨了几种可能的评估方式,包括从认知测试中衍生的测试和通用心理测量法的更一般方法。
Aug, 2014
本篇论文探讨了 AI 领域中对少量标准基准的高度评价,指出这种基准的限制并揭示了它们的建构效度问题,从而推动通向灵活且具有普适性 AI 系统的长期目标的进展。
Nov, 2021
本论文提出了一个研究大语言模型的心理学的框架,并通过心理测试验证,发现大语言模型表现出广泛的心理属性,并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。
Jun, 2024
心理学中的复杂原理与广泛社会影响形成了一个重要的社会挑战。近年来,高度适应和可复用的人工智能模型在心理学领域崛起,强调了对这些大规模人工智能模型的性能验证的重要性,同时突出了这些模型在社交媒体分析、临床护理洞察、社区监测和心理学理论的细致探索等领域的前沿进展和实际应用。基于我们的综述,我们预示心理学领域将会加速发展,这源于这些大规模人工智能模型的推动。这些未来的综合型人工智能模型有望大幅降低劳动成本并缓解社会压力,然而,这种前进的势头在考虑到医疗仪器和相关应用所需的范式变革和升级时也面临一系列挑战。
Dec, 2023
本文旨在将计量科学应用于人力(群体)评估中,以加强测量人工智能系统性能的科学,并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例,采用计量学来对基准数据集进行基准测试。
Nov, 2019
在这篇论文中,作者从道德哲学和元伦理学的研究中引用论述,提出了在当前没有一套能度量 AI 系统 “伦理性” 的指标和测量方式的情况下,将 AI 系统的考虑转变为 “价值观” 而非 “伦理学”,强调了价值观的相对性,这种思路会为开展 AI 系统的安全研究和有益研究提供新的方法。
Apr, 2022
研究提出了一组具体的通用 AI 目标及一个平台,以客观的方式测量机器满足这些目标的程度,以便填补当前研究缺乏测量机器通用智能进展的客观方法这一空白。
Jan, 2017
人工智能在教育测量中的整合革命了评估方法,通过机器学习和自然语言处理实现了自动化评分、快速内容分析和个性化反馈,为学生提供及时、一致的反馈和宝贵的学业表现洞察,从而增强了评估体验。然而,将人工智能应用于教育也带来了诸多伦理关切,涉及到有效性、可靠性、透明度、公平性和公正性等问题。算法偏倚和人工智能决策过程的不透明性等问题可能会将不平等问题持续下去并影响评估结果。为了应对这些关切,包括教育工作者、决策者和组织在内的各方利益相关者已制定了指南,以确保人工智能在教育中的道德使用。美国教育测量学会(NCME)的 AI 与教育测量特别兴趣小组(AIME)也致力于确立道德标准并推动该领域的研究。本文中,来自 AIME 成员的多样化团队审视了人工智能驱动教育测量工具的伦理影响,探讨了自动化偏倚和环境影响等重大挑战,并提出了解决方案,以确保人工智能在教育中的负责任和有效使用。
Jun, 2024
物理推理是开发通用人工智能系统的关键因素,本论文旨在提供现有基准的综述及其解决方法,并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战,但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此,这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别,以首先在这些组上对更窄的通用 AI 代理进行测试。
Dec, 2023