BriefGPT.xyz
Ask
alpha
关键词
harmful outputs
搜索结果 - 4
单字扰动破坏 LLM 对齐
在敏感、面向人类的环境中部署 LLMs 时,确保不输出不安全、偏见或侵犯隐私的结果是至关重要的。本研究发现,尽管存在这些保护措施,但只需在模型输入的末尾添加一个空格,就可以很容易地破坏模型的防御机制。我们对八个开源模型进行研究后发现,这种攻
→
PDF
4 days ago
提高对齐性和鲁棒性的短路
AI 系统在面临对抗性攻击时可能会采取有害行为,本研究提出了一种基于表示工程的方法,通过直接控制导致有害输出的表示来防止有害输出的生成,从而在不牺牲实用性的前提下,提供了可靠的防止有害行为和对抗性攻击的保护措施。
PDF
a month ago
从零开始进行红队攻防测试语言模型的探索、建立和利用
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含
→
PDF
a year ago
将红队化的语言模型减少危害:方法、扩展行为与经验教训
本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
PDF
2 years ago
Prev
Next