奖励模型学习的偏好污染攻击

Feb, 2024

Preference Poisoning Attacks on Reward Model Learning

Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang...

TL;DR从两两比较中学习效用模型或奖励模型是许多应用领域的基础组成部分。我们通过攻击算法的两类不同方法，系统地研究了恶意攻击者通过改变偏好比较数据来达到其目的的潜在性与效果，发现最佳攻击通常能在污染数据仅占 0.3% 情况下取得 100% 的成功率，并且不同领域中效果最佳的攻击方法可能存在显著差异。此外，我们还发现简单且可扩展的以距离为基础的方法通常与最佳攻击方法具有一定的竞争力，有时甚至能明显优于基于梯度的方法，并且在我们的研究中发现了其他类污染攻击的几种先进防御方法在这种情境下的效果有限。

Abstract

Learning utility, or reward, models from pairwise comparisons is a fundamental component in a number of application domains. These approaches inherently entail collecting preference information from people, with feedback often provided anonymously. Since preferences are subjective, the

utility models pairwise comparisons preference learning vulnerability analysis poisoning attacks

发现论文，激发创造

算法公平性的毒化攻击

我们引入了一种针对算法公平性的优化框架，并开发了一种基于梯度的毒化攻击方法，旨在在数据的不同群体之间引入分类偏差，我们实验性地表明，我们的攻击不仅在白盒环境中有效，特别是在黑盒情况下，也对目标模型有很大影响，我们相信我们的发现为完全新的针对算法公平性在不同场景中的对抗攻击定义铺平了道路，并且研究这些漏洞将有助于未来设计更加稳健的算法和对策。

Apr, 2020

操纵推荐系统：投毒攻击与防御措施综述

该研究报告通过文献综述，提供了关于推荐系统中毒攻击和对策的新分类法，并对文献中描述的 30 多种攻击进行了整理。此外，对于检测和 / 或预防毒攻击的 40 多种对策进行了评估，评估了它们对特定类型攻击的有效性。该综述为保护推荐系统抵御毒攻击提供了一个参考点，并对领域中的未解决问题和未来研究方向进行了讨论。

Apr, 2024

图基推荐系统的毒化攻击

该研究系统地研究了针对基于图的推荐系统的攻击方法，将攻击行为转化为一个最优化问题，并提出可行的技术解决方案，针对广泛部署的基于图的推荐系统，攻击效果优于现有攻击方式，攻击效果显著。

Sep, 2018

深度学习推荐系统中的数据毒化攻击

本研究针对基于深度学习的推荐系统进行了第一次系统性研究，提出了一个注入可控用户的数据污染攻击模型并发现此攻击在小、大规模数据集上都表现出色，同时提出多种优化方法用于解决此非凸整数编程问题。

Jan, 2021

可转移的可用性毒化攻击

用于训练数据的小扰动攻击机器学习模型的可用性数据中毒攻击有可能泛化到不同的学习算法和范式，并提出了可转移的中毒攻击来生成高频中毒扰动，该攻击具有显著改善的可转移性。

Oct, 2023

强化学习中防御奖励中毒攻击

本文提出了防御策略，针对强化学习中的奖励污染攻击，并使用优化框架和性能保证来设计对抗策略。

Feb, 2021

机器学习操作：回归学习的毒化攻击和对策

该论文系统研究了线性回归模型中的污染攻击和其对策，提出了一个特定于线性回归的理论优化框架，并设计了一种面对污染攻击高度抗干扰的新型防御方法。

Apr, 2018

对比推荐系统的毒化攻击

对比学习已经在推荐领域取得了显著的流行度，但本文发现基于对比学习的推荐系统存在一个更易受污染攻击的漏洞，并通过实验证明了这一攻击模型的破坏性，以促进更强大的对比学习推荐系统的发展。

Nov, 2023

离线强化学习中的奖励污染攻击

我们研究了利用深度神经网络进行函数逼近的一般离线强化学习中奖励污染攻击问题。我们提出了一种名为 `策略对比攻击` 的攻击策略，通过使一些低性能策略看起来像高性能策略，同时使高性能策略看起来像低性能策略来进行攻击。据我们所知，这是首个在一般离线强化学习环境中提出的黑盒奖励污染攻击。我们在攻击设计上提供了理论洞察，并通过在不同类型的学习数据集上实证表明我们的攻击对当前最先进的离线强化学习算法有效。

Feb, 2024

使用反向梯度优化实现深度学习算法中的毒化技术

该论文提出了一种基于反向梯度优化的毒化攻击算法，能够对梯度优化训练的广泛学习算法进行攻击，并在实际应用中进行了有效性评估。

Aug, 2017