以更安全的对话人工智能作为用户喜爱的来源
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
本文通过一种多学科的视角,建立了对对话调节有效性的系统定义,并提出了一个综合评估框架,以在无人干预的情况下评估模型的调节能力。通过该框架进行的首个已知的对话模型作为调节员的研究发现,适当引导的模型可以对有害行为提供具体而公正的反馈,但难以影响用户提高他们的尊重和合作水平。
Nov, 2023
通过将 ChatGPT 暴露在具有争议性的问题上,我们旨在了解其意识水平,以及现有模型是否存在社会政治和 / 或经济偏见。同时,我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明,尽管 ChatGPT 的以前版本在争议性话题上存在重要问题,但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然保持着一定程度的对右倾意识形态的隐性倾向,这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面,除了 “哲学” 类别外,ChatGPT 在跟上人类集体知识水平方面表现良好。最后,我们发现与人类答案相比,Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。
Aug, 2023
我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例,采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战,并通过实验验证了我们的方法可以控制模型并提供帮助。
Apr, 2024
本文提出 SafeguardGPT 框架,使用精神疗法纠正聊天机器人中具有潜在危害的行为,使得 AI chatbots 可以学习并适应人类喜好和价值观,以更安全、可靠和道德的方式,促进更加以人为中心和负责任的 AI 的发展。
Apr, 2023
本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架,以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策,并提供了一套工具来帮助他们进行更明智的选择。
Jul, 2021
本研究提出了一个理论框架来对文本到图像生成技术进行负责任的内容管理,其中包括了定义并区分了安全、公平和度量公平的概念,并且详细列举了可能出现的伤害案例,并提供了如何量化所定义的危害的实证演示,用数据驱动的内容管理决策来实现量化危害的操作。
Jun, 2023
建立尊重用户隐私的伦理性大型语言模型对话代理 (LLM-CA) 需要深入了解用户最关心的隐私风险,并解决用户隐私、效用和便利之间的权衡问题。研究发现,用户在使用 LLM-CA 时面临隐私、效用和便利之间的不断选择,但用户对隐私风险的认知受到错误的心理模型和系统设计中的黑暗模式的限制。为了保护 LLM-CA 用户的隐私,我们讨论了实际设计指南和范式转移的需求。
Sep, 2023
在在线交流的不断演变中,如何进行仇恨言论的管理成为一个复杂的挑战,而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展,着重介绍了大型语言模型(LLMs)和大型多模态模型(LMMs)在其中的重要作用。通过对当前文献的深入分析,我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势,即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展,这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域,特别是在涉及少数语言和文化的情况下,并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束,概述了未来研究的潜在方向,包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究,并推动协作努力,朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。
Jan, 2024
探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题,提出了新的人与模型交互框架及新方法,而不使用外部分类器,在保证模型可用性的同时更安全,实现了自动和人为评估。
Oct, 2020