开放式聊天机器人的安全配方
本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见,并使用上下文学习生成更加安全的回复,其中演示了使用检索的相似的对话框架所做过的安全模型回答,此方法达到了相对理想的结果。
Feb, 2023
在人 - 机对话设定中,我们为对话安全性提出了一种专门捕捉不安全行为的分类法,重点在于对先前的探讨不足的上下文敏感性不安全性的关注,并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety,实验证明现有的安全保护工具严重失败。为此,我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线,在流行的对话模型上执行安全评估,并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。
Oct, 2021
本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架,以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策,并提供了一套工具来帮助他们进行更明智的选择。
Jul, 2021
通过对对话 AI 系统中不安全内容的生成风险进行研究,我们提出了一种双步骤微调过程,利用社交感知的 n 对比损失来集成亲社会行为,并通过使用 Moral Integrity Corpus(MIC)和 ProsocialDialog 等数据集培训一个基础模型,实验证明了我们的方法在生成社交适宜回应方面的有效性。
Feb, 2024
通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库,本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应,并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别,而经过微调的模型更加适用,为心理健康支持对话的对话安全研究提供了有价值的基准,并对改善真实应用中对话代理的设计和部署产生了重大影响。
Jul, 2023
设计了一种名为 oxicbot 的新攻击方式,通过对话序列来触发多轮对话中聊天机器人生成有毒回复,使得聊天机器人模型可以被触发生成有毒回复,进而绕过两种防御方法,需要进一步研究解决动态交互环境下聊天机器人的毒性问题。
Jul, 2023
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
本文提出了一种名为 LOT 的新框架,该框架采用对比损失来增强归纳推理模型对输入上下文的泛化能力,使生成的结果避免了不安全的信息,并在保持对话流畅性的情况下,有效地减少了毒性,同时保留了内容的魅力和流畅度。经实验证明,与基线模型相比,该方法能将毒性降低四倍以上,同时提高内容的魅力和流畅度。
Apr, 2023
该论文提出了 SaFeRDialogues—— 关于安全问题的对话反馈的优雅响应的任务和数据集,通过在数据集上进行微调,使得基于该方法的模型生成的对话可大大提高语境感知,更具人性化。
Oct, 2021