Oct, 2023

不以为意:从语言模型中引发冒犯

TL;DR通过红队测试针对语言模型的自动化测试用例生成方法,实现语言模型的可靠部署,检测其鲁棒性和失败模式。