May, 2024

PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估

TL;DR通过引入 PolygloToxicityPrompts(PTP)评测标准,我们对 17 种语言的 425K 自然出现的提示进行了首次大规模多语种毒性评估,发现了语言资源减少和模型大小增加会增加毒性的现象,并且指导性微调方法选择对毒性没有显著影响,揭示了大型语言模型安全性的关键不足之处,并为未来的研究提供了重要的方向。