Feb, 2024

奖励模型学习的偏好污染攻击

TL;DR从两两比较中学习效用模型或奖励模型是许多应用领域的基础组成部分。我们通过攻击算法的两类不同方法,系统地研究了恶意攻击者通过改变偏好比较数据来达到其目的的潜在性与效果,发现最佳攻击通常能在污染数据仅占 0.3% 情况下取得 100% 的成功率,并且不同领域中效果最佳的攻击方法可能存在显著差异。此外,我们还发现简单且可扩展的以距离为基础的方法通常与最佳攻击方法具有一定的竞争力,有时甚至能明显优于基于梯度的方法,并且在我们的研究中发现了其他类污染攻击的几种先进防御方法在这种情境下的效果有限。