Jun, 2024
毒害对LLM对齐的威胁是否真实存在?可能比你想象的更严重
Is poisoning a real threat to LLM alignment? Maybe more so than you
think
TL;DR在这项工作中,我们研究了以直接策略优化(DPO)为基础的强化学习模型在不同情景下对攻击的脆弱性,并比较了首次提出的偏好污染攻击的有效性。我们发现,相比于基于Proximal Policy Optimization(PPO)方法的模型,DPO更容易受到攻击,只需在数据中注入0.5%的毒数据即可产生有害行为,而PPO方法则需要至少4%的毒数据才能导致有害行为。我们还进一步探究了这种脆弱性背后的潜在原因以及该脆弱性在背门和非背门攻击中的表现。