Aug, 2023

语言模型的敌对微调:一种用于生成和检测问题内容的迭代优化方法

TL;DR使用对抗微调的新型双阶段优化技术解决大型语言模型中意外有害内容生成的挑战,并通过分类准确性评估方法展示了优化过程中,判断模型在具有挑战性的数据集上的性能提升。