ACLMay, 2024

对抗性数据预处理:减少对话代理中的毒性同时对连贯性和伪装性的影响最小化

TL;DR创新的训练算法 ADPO 提高了模型对有害对话的鲁棒性,同时最大限度地减少性能下降,并首次将有害数据直接纳入生成模型中,减少了人工创建安全对话数据的需求。