Apr, 2024

基于机制的缓解有害心理生成 AI 的方法

TL;DR最近的生成型 AI 系统展示了更先进的说服能力,并且越来越多地渗透到可以影响决策的领域。生成型 AI 带来了新的说服风险概况,因为它提供了相互交流和长时间互动的机会。这引起了人们对 AI 说服的伤害的忧虑,以及如何减轻这些伤害的需求,凸显出了对 AI 说服进行系统研究的需求。本文为 AI 说服的系统研究奠定了基础。我们首先提出了有关生成型 AI 的定义。我们区分了基于提供相关事实、合理推理或其他形式的值得信赖的证据的理性说服型生成型 AI,以及基于利用认知偏差和启发法或者歪曲信息的操纵型生成型 AI。我们还提出了 AI 说服伤害的一张风险图,包括经济的、身体的、环境的、心理的、社会文化的、政治的、隐私的和自主权的伤害的定义和示例。然后,我们介绍了有助于有害说服的机制图。最后,我们提供了一种用于减轻说服过程伤害的方法概述,包括用于操纵分类和红队测试的提示工程。未来工作将使这些减轻措施具体化,并研究不同类型的说服机制之间的相互作用。