The strive to make ai applications "safe" has led to the development of
safety-measures as the main or even sole normative requirement of their
permissible use. Similar can be attested to the latest version of chatbots<
通过对对话 AI 系统中不安全内容的生成风险进行研究,我们提出了一种双步骤微调过程,利用社交感知的 n 对比损失来集成亲社会行为,并通过使用 Moral Integrity Corpus(MIC)和 ProsocialDialog 等数据集培训一个基础模型,实验证明了我们的方法在生成社交适宜回应方面的有效性。