探索对话系统中的社交偏见:框架、数据集和基准
在人 - 机对话设定中,我们为对话安全性提出了一种专门捕捉不安全行为的分类法,重点在于对先前的探讨不足的上下文敏感性不安全性的关注,并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety,实验证明现有的安全保护工具严重失败。为此,我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线,在流行的对话模型上执行安全评估,并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。
Oct, 2021
通过对对话 AI 系统中不安全内容的生成风险进行研究,我们提出了一种双步骤微调过程,利用社交感知的 n 对比损失来集成亲社会行为,并通过使用 Moral Integrity Corpus(MIC)和 ProsocialDialog 等数据集培训一个基础模型,实验证明了我们的方法在生成社交适宜回应方面的有效性。
Feb, 2024
本文提出了第一个基于中国社会文化的社交感知对话语料库 - SocialDial,使用 ChatGPT 生成了 4,870 段数据,并评估了使用 BERT 和 RoBERTa 等预训练模型的数据集。
Apr, 2023
本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见,并使用上下文学习生成更加安全的回复,其中演示了使用检索的相似的对话框架所做过的安全模型回答,此方法达到了相对理想的结果。
Feb, 2023
本研究提出了一种名为 “社会偏见框架” 的新的概念形式化模型,以模拟人们如何将社会偏见和刻板印象投射到其他人身上的框架,并建立了一个名为 “社会偏见推理语料库” 的数据集来支持大规模建模和评估,分析表明当前最先进的神经模型虽然能够高效地对是否含有不良社会偏见进行分类,但在详细解释社会偏见框架方面并不有效。本研究为今后的研究工作提供了指导,即将结构化的语用推理与社会影响的通识推理相结合。
Nov, 2019
通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库,本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应,并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别,而经过微调的模型更加适用,为心理健康支持对话的对话安全研究提供了有价值的基准,并对改善真实应用中对话代理的设计和部署产生了重大影响。
Jul, 2023
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
本文介绍了一个新的中文数据集 CHBias,用于对中文会话语言模型进行偏见评估和缓解。试验结果表明,使用该数据集的去偏执方法可以减少生成具有社会偏见的文本,同时保持模型的对话功能。
May, 2023
使用预训练的大型语言模型,本文提出了一种诊断方法来确定任务导向对话系统中每个组件的偏见,并通过实验结果表明这种偏见主要来自回应生成模型。
Nov, 2023