Jun, 2024

STAR: 社会技术方法在红队化语言模型中的应用

TL;DRSTAR 是一种社会技术框架,通过生成参数化指令来改进对大型语言模型的红队安全测试,提高了模型的可控性和信号质量。