Jun, 2024

毒害对 LLM 对齐的威胁是否真实存在?可能比你想象的更严重

TL;DR在这项工作中,我们研究了以直接策略优化(DPO)为基础的强化学习模型在不同情景下对攻击的脆弱性,并比较了首次提出的偏好污染攻击的有效性。我们发现,相比于基于 Proximal Policy Optimization(PPO)方法的模型,DPO 更容易受到攻击,只需在数据中注入 0.5% 的毒数据即可产生有害行为,而 PPO 方法则需要至少 4% 的毒数据才能导致有害行为。我们还进一步探究了这种脆弱性背后的潜在原因以及该脆弱性在背门和非背门攻击中的表现。