BriefGPT.xyz
Ask
alpha
关键词
toxic statements
搜索结果 - 1
从零开始进行红队攻防测试语言模型的探索、建立和利用
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含
→
PDF
a year ago
Prev
Next