上下文臂匪夷攻击
本文介绍了一种基于数据驱动的回放方法,用于在线推荐系统中上下文匹配算法的离线评估,解决了传统基于模拟器的方法中数据建模困难且存在偏差的问题,并在Yahoo!等大规模新闻文章推荐数据集表现出的神经网络在在线离线策略上的准确性和效率。
Mar, 2010
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差-方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
该研究提出了一种针对强化学习的隐匿性数据污染攻击,使用最新的梯度对齐技术,仅对少量的训练数据进行最小限度的修改,而不需要对策略或奖励进行任何控制,目的在于仅在特定目标状态下导致智能体总体表现不佳,在两个难度不同的Atari游戏中进行了实验并取得了成功。
Jan, 2022
本研究探讨了多智能体强化学习中的奖励毒化攻击,并展示了攻击者可以安装目标策略作为马尔科夫完美主导策略均衡,从而使得理性代理人会跟随攻击者所预期的策略走向。该攻击可以更便捷地实施,也适用于多种不同结构的数据集和MARL代理算法,我们同时还研究了数据集结构和攻击代价之间的关系与防御方法。
Jun, 2022
我们研究了利用深度神经网络进行函数逼近的一般离线强化学习中奖励污染攻击问题。我们提出了一种名为`策略对比攻击`的攻击策略,通过使一些低性能策略看起来像高性能策略,同时使高性能策略看起来像低性能策略来进行攻击。据我们所知,这是首个在一般离线强化学习环境中提出的黑盒奖励污染攻击。我们在攻击设计上提供了理论洞察,并通过在不同类型的学习数据集上实证表明我们的攻击对当前最先进的离线强化学习算法有效。
Feb, 2024