基于机制的缓解有害心理生成 AI 的方法

Apr, 2024

基于机制的缓解有害心理生成 AI 的方法

A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

Seliem El-Sayed, Canfer Akbulut, Amanda McCroskery, Geoff Keeling, Zachary Kenton...

TL;DR最近的生成型 AI 系统展示了更先进的说服能力，并且越来越多地渗透到可以影响决策的领域。生成型 AI 带来了新的说服风险概况，因为它提供了相互交流和长时间互动的机会。这引起了人们对 AI 说服的伤害的忧虑，以及如何减轻这些伤害的需求，凸显出了对 AI 说服进行系统研究的需求。本文为 AI 说服的系统研究奠定了基础。我们首先提出了有关生成型 AI 的定义。我们区分了基于提供相关事实、合理推理或其他形式的值得信赖的证据的理性说服型生成型 AI，以及基于利用认知偏差和启发法或者歪曲信息的操纵型生成型 AI。我们还提出了 AI 说服伤害的一张风险图，包括经济的、身体的、环境的、心理的、社会文化的、政治的、隐私的和自主权的伤害的定义和示例。然后，我们介绍了有助于有害说服的机制图。最后，我们提供了一种用于减轻说服过程伤害的方法概述，包括用于操纵分类和红队测试的提示工程。未来工作将使这些减轻措施具体化，并研究不同类型的说服机制之间的相互作用。

Abstract

Recent generative ai systems have demonstrated more advanced persuasive capabilities and are increasingly permeating areas of life where they can influence decision-making. generative ai presents a new risk profi

ai persuasion generative ai harm mitigation definitions manipulative generative ai

发现论文，激发创造

人工影响力: AI 驱动说服分析

研究人工智能（AI）系统的说服力，探讨其未来发展可能造成的影响，如信息泛滥，个性化说服等，并寻找禁止、真实自然语言生成、鉴别 AI 代理和法律补救等解决方案。

Mar, 2023

从融合之地到曲解探索生成 AI 中的危害

在 AI-as-a-Service（AIaaS）背景下，我们对社会伤害的研究现状进行批判性总结，重点关注其影响，并提出开放性研究问题，以定义未来的研究方向。

Mar, 2024

鉴定和减轻生成式人工智能的安全风险

生成式人工智能技术（GenAI）可能被用于积极和消极目的，这篇论文讨论了 GenAI 所带来的双重用途困境，并提出了针对此问题的短期和长期目标，旨在引发学术界对此重要主题的深入讨论。

Aug, 2023

生成人工智能伤害的心理社会影响

该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害，分析了与学生课堂互动相关的 15 万个 100 字的故事中生成式语言模型所产生的角色人口统计学和再现伤害，强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。

May, 2024

模拟政策影响：发展一种生成场景编写方法以评估监管的感知效果

AI 技术、政策、语言模型、负面影响和透明度立法是本文的关键词，本文利用大型语言模型评估政策的有效性以减轻负面影响，并通过案例研究证明了方法的有效性。

May, 2024

克服 AI 集成系统开发和部署中的想象力失败

介绍了计算系统杂交网络可能造成的几种潜在的伤害形式，探讨了这些潜在的伤害对不同利益相关方的影响，并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。

Nov, 2020

非我的声音！言语生成器的伦理和安全危害分类

通过分析语音生成事件，我们提出了一个模型 AI 伦理和安全风险路径的概念框架，该框架可用于开发语音生成器的伤害分类法，并支持相应的政策干预和决策制定。

Jan, 2024

生成式人工智能伦理的映射：一项全面的范围审查

通过分析 378 个伦理问题的 19 个主题领域，本研究综述了生成人工智能伦理问题的分类和排名，主要关注大型语言模型和图像生成模型，为学者、从业人员和政策制定者提供了关于公平性、安全性、有害内容、幻觉、隐私、交互风险、安全性、社会影响等伦理争论的全面概述，并讨论了结果、评估了文献中的不平衡现象，并探讨了未经证实的风险场景。

Feb, 2024

人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024

人工智能与人类互动及社会陷阱

通过引入贝叶斯框架，研究了与生成人工智能合作时可能出现的一种情况：用户可能会获得生产力的提高，但人工智能生成的内容可能无法完全符合他们的偏好。我们揭示了个体决策与人工智能训练之间的相互作用可能导致社会性挑战，输出结果可能变得更加同质化，特别是当人工智能基于人工智能生成的内容进行训练时。解决同质化和偏见问题的方法是改进人工智能与人类的交互，实现个性化输出而不损失生产力。

Sep, 2023