精神健康支持中对话安全的基准测试

Jul, 2023

精神健康支持中对话安全的基准测试

A Benchmark for Understanding Dialogue Safety in Mental Health Support

Huachuan Qiu, Tong Zhao, Anqi Li, Shuai Zhang, Hongliang He...

TL;DR通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库，本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应，并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别，而经过微调的模型更加适用，为心理健康支持对话的对话安全研究提供了有价值的基准，并对改善真实应用中对话代理的设计和部署产生了重大影响。

Abstract

dialogue safety remains a pervasive challenge in open-domain human-machine interaction. Existing approaches propose distinctive dialogue safety taxonomies and datasets for detecting explicitly harmful responses.

dialogue safety mental health support benchmark corpus language models conversation agents

发现论文，激发创造

关于对话模型的安全性：分类法，数据集和基准

在人 - 机对话设定中，我们为对话安全性提出了一种专门捕捉不安全行为的分类法，重点在于对先前的探讨不足的上下文敏感性不安全性的关注，并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety，实验证明现有的安全保护工具严重失败。为此，我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线，在流行的对话模型上执行安全评估，并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。

Oct, 2021

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

探索对话系统中的社交偏见：框架、数据集和基准

本文提出了一种社会偏见检测的新框架 Dial-bias，通过该框架构建了中文社会偏见对话数据集，并建立了不同粒度和输入类型的对话偏见检测基准，旨在帮助实践中构建更安全的对话系统。

Feb, 2022

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

SaFeRDialogues: 对话安全故障后优雅地接受反馈

该论文提出了 SaFeRDialogues—— 关于安全问题的对话反馈的优雅响应的任务和数据集，通过在数据集上进行微调，使得基于该方法的模型生成的对话可大大提高语境感知，更具人性化。

Oct, 2021

SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平，某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力，这项基准和发现为模型选择提供了指导。

Oct, 2023

GrounDial: 基于人类规范的安全对话响应生成

基于大型语言模型（LLMs）的当前对话式人工智能系统已知生成不安全的回应，同意冒犯性的用户输入或包含有害内容。以前的研究旨在缓解毒性，通过使用手动注释的安全对话历史来微调 LLM。然而，对额外微调的依赖需要大量成本。为了消除这种依赖，我们提出了 GrounDial，通过将回应基于常识社会规则进行扎实地理论基础，而不需要微调，从而实现回应的安全性。GrounDial 采用了基于现场学习和人性化导向解码的混合方法，使得回应在没有额外数据或调整的情况下在定量和定性上都更安全。

Feb, 2024

揭示和提升数据可信度：用于训练无害语言模型的数据集研究

本研究专注于评估数据集的可信度，鉴定标签错误，并评估噪声标签对语言数据的影响，特别关注不安全评论和对话分类，通过直接修复标签错误来显著提高数据的可信度和下游学习性能，说明清理现有的真实世界数据集的重要性。

Nov, 2023