评估使用自我报告的 AI 系统道德地位的研究
本文探讨了人工智能在伦理、决策制定等方面引发的一些问题和讨论,并重点讨论 AI 代理人中的 “自我” 认知和其在决策制定方面的作用。作者旨在提倡建立拥有更强自我认知的 AI 代理人的研究。
Jan, 2022
人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人(2000)提议的改进型道德图灵测试(m-MTT),通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价,代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现,在几乎所有维度上,包括美德、智力和可靠性,他们评价 AI 的道德推理质量高于人类的,这与 Allen 等人所称的相对 MTT 相一致。接下来,在确定每个评价的来源(人类还是计算机)的任务中,人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试,但不是因为它的道德推理不如人类,而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。
Apr, 2024
下一代人工智能系统的安全性越来越受关注,需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法,并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时,通过案例研究和评估道德学习代理的有效性,探讨了未来人工智能安全和伦理面临的挑战。
Dec, 2023
为了能够有效地与人类协作并确保安全,人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战,本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集,并使用最先进的大型语言模型 (LLMS) 作为基础,提出了一个新的 MORALCOT 策略以预测人类道德判断。
Oct, 2022
通过训练 AI 系统构建自身的因果模型,我们提出 Causal Self-Talk 方法,作用于 Deep RL agents,并在模拟 3D 环境中实现,使得这些 agents 能够生成准确的和有意义的行为解释,从而提供了构建语义控制接口的新方法。
Nov, 2022
介绍自我反思人工智能系统的概念,提出了一个融合了心理学、哲学、形式推理方法和机器学习方法的框架,旨在创建响应人类价值和社会规范的人工智能系统,可以增加有意义的人类控制并通过提供人类道德盲点的可理解信息和见解来赋予人类道德推理的能力。
Jul, 2023
通过对有关心理健康支持的批判性问题的评估,本文提出了一个结构化框架,旨在应对与自主任务 AI 在心理健康领域的发展所相关的伦理和实际挑战,并定义了 AI 代理在支持心理健康方面的等级自主性、伦理要求和有益的默认行为。此外,评估了十种先进的语言模型,结果发现这些现有模型不能达到人类专业人员的标准,不能适应细微差别和理解上下文,可能导致用户受伤甚至加重症状。因此,需要探索解决方案来增强当前模型的安全性,以确保它们能可靠地检测和管理常见心理障碍的症状,从而避免对用户的伤害。这需要与我们研究中提出的伦理框架和默认行为相一致,强调模型开发人员有责任根据这些指南改进其系统,以防止当前人工智能技术对用户心理健康和安全造成风险。
Apr, 2024