ACLFeb, 2023

预训练中添加指导:控制语言模型毒性的有效方式

TL;DR本研究提出了两种新的预训练数据增强策略(MEDA 和 INST),可以显著降低模型的有毒内容,而不影响其实用性,进而证明我们的最佳策略(INST)可将模型毒性概率降低长达 61%,同时在五个基准 NLP 任务上保持准确性并将四个偏差检测任务的 AUC 得分提高了 1.3%。我们还展示了该技术的泛化性,通过提高训练样本和模型参数的数量。