Aug, 2021
使用条件似然过滤减少语言模型的危害
Mitigating harm in language models with conditional-likelihood filtration
Helen Ngo, Cooper Raterink, João G.M. Araújo, Ivan Zhang, Carol Chen...
TL;DR提出一种从网页规模数据集中识别和过滤有害文本的方法,使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然,并根据该结果识别和过滤数据集中的文档,证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低,性能与未过滤基线相比略有降低,最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。