评估使用自我报告的 AI 系统道德地位的研究

Nov, 2023

评估使用自我报告的 AI 系统道德地位的研究

Towards Evaluating AI Systems for Moral Status Using Self-Reports

Ethan Perez, Robert Long

TL;DR通过自描述提供研究 AI 系统是否具有道德意义的内在状态，讨论了自描述在当前系统和人类中的适用性，并提出了培训模型回答关于自身的问题以实现内省式能力的方法，同时探讨了评估这些技术成功程度的方法和相关挑战。

Abstract

As ai systems become more advanced and widely deployed, there will likely be increasing debate over whether ai systems could have conscious exper

ai systems conscious experiences self-reports moral significance introspection-like capabilities

发现论文，激发创造

自我视角下的他人评估

人工智能系统在模拟或接近人类间的相互作用中，特别是在多层次环境中与不同实体进行的情况下，必须首先深入而细致地理解自己，以实现对人类认知的高质量理解。

Dec, 2023

人工智能与自我意识

本文探讨了人工智能在伦理、决策制定等方面引发的一些问题和讨论，并重点讨论 AI 代理人中的 “自我” 认知和其在决策制定方面的作用。作者旨在提倡建立拥有更强自我认知的 AI 代理人的研究。

Jan, 2022

一项改进的道德图灵测试中对人工智能代理的归因

人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Apr, 2024

认真采取有意向立场，或者 “意图” 改善认知系统

通过分析与人类行为相关的心理状态，着重于探讨如何利用这些状态来理解以及推测人工智能认知系统的行为，提出了一些高水平方法论建议。

Sep, 2022

通过经验与互动学习机器道德

下一代人工智能系统的安全性越来越受关注，需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法，并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时，通过案例研究和评估道德学习代理的有效性，探讨了未来人工智能安全和伦理面临的挑战。

Dec, 2023

负责任的自主

讨论了人工智能伦理学的研究方向，提出了确保人工智能系统行为符合道德和社会价值的替代方法，并介绍了设计和利益相关者价值观提取方法。

Jun, 2017

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

因果自我对话的可解释性

通过训练 AI 系统构建自身的因果模型，我们提出 Causal Self-Talk 方法，作用于 Deep RL agents，并在模拟 3D 环境中实现，使得这些 agents 能够生成准确的和有意义的行为解释，从而提供了构建语义控制接口的新方法。

Nov, 2022

反思式混合智能用于决策支持系统的意义人类控制

介绍自我反思人工智能系统的概念，提出了一个融合了心理学、哲学、形式推理方法和机器学习方法的框架，旨在创建响应人类价值和社会规范的人工智能系统，可以增加有意义的人类控制并通过提供人类道德盲点的可理解信息和见解来赋予人类道德推理的能力。

Jul, 2023

语言模型在自动化心理医疗中的风险：伦理和实施结构

通过对有关心理健康支持的批判性问题的评估，本文提出了一个结构化框架，旨在应对与自主任务 AI 在心理健康领域的发展所相关的伦理和实际挑战，并定义了 AI 代理在支持心理健康方面的等级自主性、伦理要求和有益的默认行为。此外，评估了十种先进的语言模型，结果发现这些现有模型不能达到人类专业人员的标准，不能适应细微差别和理解上下文，可能导致用户受伤甚至加重症状。因此，需要探索解决方案来增强当前模型的安全性，以确保它们能可靠地检测和管理常见心理障碍的症状，从而避免对用户的伤害。这需要与我们研究中提出的伦理框架和默认行为相一致，强调模型开发人员有责任根据这些指南改进其系统，以防止当前人工智能技术对用户心理健康和安全造成风险。

Apr, 2024