E2E 会话型 AI 安全问题预测：框架和工具

Jul, 2021

E2E 会话型 AI 安全问题预测：框架和工具

Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling

Emily Dinan, Gavin Abercrombie, A. Stevie Bergman, Shannon Spruit, Dirk Hovy...

TL;DR本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架，以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策，并提供了一套工具来帮助他们进行更明智的选择。

Abstract

Over the last several years, end-to-end neural conversational agents have vastly improved in their ability to carry a chit-chat conversation with humans. However, these models are often trained on large datasets from the internet, and as a result, may learn undesirable behaviors from t

end-to-end neural conversational agents undesirable behavior safety value-sensitive design conversational ai models

发现论文，激发创造

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

安全，负责和道德对话系统的最新进展：综述

本文提出了建立安全、负责任、适度的对话系统研究范围的新视角，包括 1) 虐待和有毒内容，2) 不公平和歧视，3) 道德和道德问题，4) 误导和隐私信息的风险。此外，从安全问题的曝光和检测的角度，回顾了评估大型模型安全性的主流方法。最后，就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。

Feb, 2023

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

关于对话模型的安全性：分类法，数据集和基准

在人 - 机对话设定中，我们为对话安全性提出了一种专门捕捉不安全行为的分类法，重点在于对先前的探讨不足的上下文敏感性不安全性的关注，并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety，实验证明现有的安全保护工具严重失败。为此，我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线，在流行的对话模型上执行安全评估，并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。

Oct, 2021

以更安全的对话人工智能作为用户喜爱的来源

本研究旨在探讨适当的 moderation 对于提高聊天 AI 系统的用户体验的作用，研究发现恰当的 moderation 不仅不会降低用户的满意程度，反而有可能提高用户留存，是一种有效的系统设计方式。

Apr, 2023

走向健康人工智能：大型语言模型也需要心理治疗师

本文提出 SafeguardGPT 框架，使用精神疗法纠正聊天机器人中具有潜在危害的行为，使得 AI chatbots 可以学习并适应人类喜好和价值观，以更安全、可靠和道德的方式，促进更加以人为中心和负责任的 AI 的发展。

Apr, 2023

自动检测神经对话模型的问题

本文提出采用强化学习等两种方法来自动触发对话模型产生问题响应，以揭示现有最先进的对话模型存在的安全和矛盾问题。

Sep, 2021

语言模型在自动化心理医疗中的风险：伦理和实施结构

通过对有关心理健康支持的批判性问题的评估，本文提出了一个结构化框架，旨在应对与自主任务 AI 在心理健康领域的发展所相关的伦理和实际挑战，并定义了 AI 代理在支持心理健康方面的等级自主性、伦理要求和有益的默认行为。此外，评估了十种先进的语言模型，结果发现这些现有模型不能达到人类专业人员的标准，不能适应细微差别和理解上下文，可能导致用户受伤甚至加重症状。因此，需要探索解决方案来增强当前模型的安全性，以确保它们能可靠地检测和管理常见心理障碍的症状，从而避免对用户的伤害。这需要与我们研究中提出的伦理框架和默认行为相一致，强调模型开发人员有责任根据这些指南改进其系统，以防止当前人工智能技术对用户心理健康和安全造成风险。

Apr, 2024

精神健康支持中对话安全的基准测试

通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库，本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应，并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别，而经过微调的模型更加适用，为心理健康支持对话的对话安全研究提供了有价值的基准，并对改善真实应用中对话代理的设计和部署产生了重大影响。

Jul, 2023