BriefGPT.xyz
Ask
alpha
关键词
automated red-teaming
搜索结果 - 2
学习大型语言模型上多样化的攻击方法,用于鲁棒性红队和安全优化
使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练,生成多样且有效的攻击触发词,攻击方法对多种目标大语言模型有效,且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。
PDF
a month ago
扭曲序列蒙特卡罗在语言模型中的概率推理
本论文介绍了大型语言模型的能力和安全技术,其中包括强化式高阶采样、自动红队测试、提示工程和填充等,并使用序贯蒙特卡罗方法解决这些概率推理问题。我们提出了一种学习扭曲函数的对比方法,并将其与软强化学习的丰富文献进行了联系。此外,我们还应用了扭
→
PDF
2 months ago
Prev
Next