Apr, 2023

学会不学习:聊天机器人生成安全的探索

TL;DR本文提出了一种名为 LOT 的新框架,该框架采用对比损失来增强归纳推理模型对输入上下文的泛化能力,使生成的结果避免了不安全的信息,并在保持对话流畅性的情况下,有效地减少了毒性,同时保留了内容的魅力和流畅度。经实验证明,与基线模型相比,该方法能将毒性降低四倍以上,同时提高内容的魅力和流畅度。