Feb, 2022

探索域自适应训练对于大规模语言模型去毒化的极限

TL;DR本文系统性地研究了领域自适应训练方法,利用语言模型的生成能力产生无毒数据集达到更高的数据效率,通过实验证明了自生成方法可以有效降低大型语言模型毒性,即使使用小得多的训练数据,也可以在自动和人类评估中优于现有的基线方法,并且提出了适配器层训练方法来降低参数,实现了更好的毒性 - 困惑度平衡。