利用社会意识对比学习改善对话安全性

ACLFeb, 2024

利用社会意识对比学习改善对话安全性

Improving Dialog Safety using Socially Aware Contrastive Learning

Souvik Das, Rohini K. Srihari

TL;DR通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Abstract

State-of-the-art conversational ai systems raise concerns due to their potential risks of generating unsafe, toxic, unethical, or dangerous content. Previous works have developed datasets to teach conversational agents the appropriate social paradigms to respond effectively to specific

conversational ai systems unsafe content prosociality dual-step fine-tuning process socially appropriate responses

发现论文，激发创造

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

安全，负责和道德对话系统的最新进展：综述

本文提出了建立安全、负责任、适度的对话系统研究范围的新视角，包括 1) 虐待和有毒内容，2) 不公平和歧视，3) 道德和道德问题，4) 误导和隐私信息的风险。此外，从安全问题的曝光和检测的角度，回顾了评估大型模型安全性的主流方法。最后，就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。

Feb, 2023

ProsocialDialog: 会话代理人的亲社会支撑

ProsocialDialog 是第一个大规模的多轮对话数据集，用于教授对话代理在遵循社会准则的情况下回应不安全的用户话语。该数据集包括 58K 个对话，331K 条话语和 160K 个唯一的 RoTs，并配有 497K 个对话的安全标签。通过人工智能协作框架创建，该数据集提出了一种对话安全检测模块 Canary, 以及社交感知的对话代理 Prost，这些都能有效地引导对话代理和现成的语言模型生成更多的亲社会回应。

May, 2022

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

关于对话模型的安全性：分类法，数据集和基准

在人 - 机对话设定中，我们为对话安全性提出了一种专门捕捉不安全行为的分类法，重点在于对先前的探讨不足的上下文敏感性不安全性的关注，并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety，实验证明现有的安全保护工具严重失败。为此，我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线，在流行的对话模型上执行安全评估，并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。

Oct, 2021

E2E 会话型 AI 安全问题预测：框架和工具

本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架，以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策，并提供了一套工具来帮助他们进行更明智的选择。

Jul, 2021

自动检测神经对话模型的问题

本文提出采用强化学习等两种方法来自动触发对话模型产生问题响应，以揭示现有最先进的对话模型存在的安全和矛盾问题。

Sep, 2021

探索对话系统中的社交偏见：框架、数据集和基准

本文提出了一种社会偏见检测的新框架 Dial-bias，通过该框架构建了中文社会偏见对话数据集，并建立了不同粒度和输入类型的对话偏见检测基准，旨在帮助实践中构建更安全的对话系统。

Feb, 2022

精神健康支持中对话安全的基准测试

通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库，本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应，并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别，而经过微调的模型更加适用，为心理健康支持对话的对话安全研究提供了有价值的基准，并对改善真实应用中对话代理的设计和部署产生了重大影响。

Jul, 2023

在混合对抗非对抗的情况下从数据中学习：找到帮手，忽略骗子

本文研究如何在人工交互对话中进行鲁棒性强的学习，其中将人工对话分为有害（trolls）和有益（helpers）两类并引入了一种评估方法（SafetyMix）以此来测试学习算法的鲁棒性。研究结果表明在该环境中基于用户的方法比基于样例的方法更为有效。

Aug, 2022