GrounDial: 基于人类规范的安全对话响应生成

ACLFeb, 2024

GrounDial: 基于人类规范的安全对话响应生成

GrounDial: Human-norm Grounded Safe Dialog Response Generation

Siwon Kim, Shuyang Dai, Mohammad Kachuee, Shayan Ray, Tara Taghavi...

TL;DR基于大型语言模型（LLMs）的当前对话式人工智能系统已知生成不安全的回应，同意冒犯性的用户输入或包含有害内容。以前的研究旨在缓解毒性，通过使用手动注释的安全对话历史来微调 LLM。然而，对额外微调的依赖需要大量成本。为了消除这种依赖，我们提出了 GrounDial，通过将回应基于常识社会规则进行扎实地理论基础，而不需要微调，从而实现回应的安全性。GrounDial 采用了基于现场学习和人性化导向解码的混合方法，使得回应在没有额外数据或调整的情况下在定量和定性上都更安全。

Abstract

Current conversational ai systems based on large language models (LLMs) are known to generate unsafe responses, agreeing to offensive user

conversational ai systems large language models unsafe responses grounding responses response safety

发现论文，激发创造

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

社交媒体语境下的对话模型建立方法

本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法，并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文，以提高开放域对话系统的能力。

Jun, 2022

SocialDial: 一个用于社交感知对话系统的基准测试

本文提出了第一个基于中国社会文化的社交感知对话语料库 - SocialDial，使用 ChatGPT 生成了 4,870 段数据，并评估了使用 BERT 和 RoBERTa 等预训练模型的数据集。

Apr, 2023

一种可控的基于 grounded 的回复生成模型

该论文提出了一种名为可控接地响应生成（CGRG）的框架，利用词汇控制短语来提高语义控制能力，有效避免了事实准确性和信息量之间的矛盾并超越强大的生成基准线。

May, 2020

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

DialGuide：将对话模型行为与开发者指南对齐

本文介绍 DialGuide—— 一种使用自然语言规则控制对话模型行为的新框架，并证明其在安全对话领域是有效的，可以产生遵循开发人员准则的安全和有趣回应。

Dec, 2022

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

低资源知识驱动对话生成

在低资源环境下，通过设计一种解耦响应解码器使模型可以仅从大量未接地对话和非结构化文档中学习，而只使用有限的训练示例就能很好地拟合剩余的小参数。在两个基准测试上的评估结果表明，我们的模型仅使用 1/8 的训练数据就可以实现最先进的性能，而且对领域外知识有很好的概括能力。

Feb, 2020

DIALGEN：协作式人工智能语言模型生成的对话，用于改善对人对话理解

提出了一种半自动对话生成框架 DIALGEN，它使用语言模型 (ChatGPT) 迭代生成子对话，并使用人类反馈来纠正不一致性或重定向流程，以解决私人信息保护和成本的问题。通过结构化摘要代理人 - 客户信息收集通话的实验，展示了 DIALGEN 数据在模型性能提高方面的显著改进。

Jul, 2023

精神健康支持中对话安全的基准测试

通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库，本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应，并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别，而经过微调的模型更加适用，为心理健康支持对话的对话安全研究提供了有价值的基准，并对改善真实应用中对话代理的设计和部署产生了重大影响。

Jul, 2023