非我的声音!言语生成器的伦理和安全危害分类
基于大量信息训练的生成式人工智能(特别是以文本为基础的 “基本模型”)在产生问题性言论方面可能面临不同责任体系的风险。因此需要对这些模型进行 “红队测试”,以识别和缓解潜在的问题性言论。本研究考察了三种责任体系,并将其与普遍的红队测试模型行为进行关联:诽谤、涉及犯罪行为的言论以及错误死亡。研究发现,对于生成式言论模型的 Section 230 免责分析或下游责任分析密切关联于算法设计的技术细节。文章主张在这些情况下 AI 不应被绝对地免除责任。法院和决策者在评估这些问题时应慎重考虑所造成的技术设计激励措施并需同时应对平台算法的复杂性。
Aug, 2023
本文对语言生成模型潜在威胁与社会危害进行了调查研究,提供了探查与缓解风险和伤害的实用方法,旨在为大型语言模型研究人员和从业者提供实用指南。
Oct, 2022
在 AI-as-a-Service(AIaaS)背景下,我们对社会伤害的研究现状进行批判性总结,重点关注其影响,并提出开放性研究问题,以定义未来的研究方向。
Mar, 2024
该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害,分析了与学生课堂互动相关的 15 万个 100 字的故事中生成式语言模型所产生的角色人口统计学和再现伤害,强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。
May, 2024
通过分析 378 个伦理问题的 19 个主题领域,本研究综述了生成人工智能伦理问题的分类和排名,主要关注大型语言模型和图像生成模型,为学者、从业人员和政策制定者提供了关于公平性、安全性、有害内容、幻觉、隐私、交互风险、安全性、社会影响等伦理争论的全面概述,并讨论了结果、评估了文献中的不平衡现象,并探讨了未经证实的风险场景。
Feb, 2024
通过对现有学术文献和大约 200 起滥用报告事件的定性分析,我们提出了一种基于深度学习和多模态人工智能的滥用策略分类方法,并揭示了滥用的关键模式、潜在动机和攻击者如何利用系统能力的方式。
Jun, 2024
泛人工智能与人类的互动达到了前所未有的规模,为巨大的积极影响提供了新途径,但也引发了广泛关注,担忧其对个体和社会可能造成的伤害。本文中,我们认为,对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此,我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机,为未来几十年的人类中心人工智能安全奠定了新基础。
May, 2024
研究发现生成音频模型研究中缺乏关注其潜在的负面影响和道德伦理问题,本文通过对 884 篇文献的系统文献综述,指出可能引发欺诈、深度伪造和版权侵犯等伦理问题需要重视。
Jul, 2023
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
最近的生成型 AI 系统展示了更先进的说服能力,并且越来越多地渗透到可以影响决策的领域。生成型 AI 带来了新的说服风险概况,因为它提供了相互交流和长时间互动的机会。这引起了人们对 AI 说服的伤害的忧虑,以及如何减轻这些伤害的需求,凸显出了对 AI 说服进行系统研究的需求。本文为 AI 说服的系统研究奠定了基础。我们首先提出了有关生成型 AI 的定义。我们区分了基于提供相关事实、合理推理或其他形式的值得信赖的证据的理性说服型生成型 AI,以及基于利用认知偏差和启发法或者歪曲信息的操纵型生成型 AI。我们还提出了 AI 说服伤害的一张风险图,包括经济的、身体的、环境的、心理的、社会文化的、政治的、隐私的和自主权的伤害的定义和示例。然后,我们介绍了有助于有害说服的机制图。最后,我们提供了一种用于减轻说服过程伤害的方法概述,包括用于操纵分类和红队测试的提示工程。未来工作将使这些减轻措施具体化,并研究不同类型的说服机制之间的相互作用。
Apr, 2024