ACLFeb, 2024

利用社会意识对比学习改善对话安全性

TL;DR通过对对话 AI 系统中不安全内容的生成风险进行研究,我们提出了一种双步骤微调过程,利用社交感知的 n 对比损失来集成亲社会行为,并通过使用 Moral Integrity Corpus(MIC)和 ProsocialDialog 等数据集培训一个基础模型,实验证明了我们的方法在生成社交适宜回应方面的有效性。