May, 2024

大型语言模型中毒性的实际评估

TL;DR该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭示了它们行为中更微妙的问题。