BriefGPT.xyz
大模型
Ask
alpha
关键词
attack methodology
搜索结果 - 1
从心理测量学角度攻击大型语言模型以评估隐性偏见
大型语言模型(LLMs)的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击,以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法(伪装、欺骗和教授),并构建了四种常见偏见类型的评估数据集。对典型 L
→
PDF
14 days ago
Prev
Next