adversarial manipulation | BriefGPT

关键词adversarial manipulation

搜索结果 - 8

使用参数化知识痕迹对去学习进行内在评估
通过对概念向量及其参数化知识痕迹的独立评估，我们发现现有的去学习方法对概念向量的影响较小，而直接删除这些向量则显著降低了大型语言模型对对抗操纵的敏感性，突显了基于行为的去学习评估存在的局限性并呼吁未来的研究考虑参数化评估。
PDF17 days ago
线性二次控制的强化学习易受成本操纵攻击
本研究研究了通过操纵成本信号来欺骗线性二次高斯代理，并提出了一种攻击模型，其中攻击者旨在通过故意篡改成本参数来误导代理学习 “恶意” 策略。我们展示了在两种类型的 LQG 学习者上的敌对操纵，并证明了只需对成本数据进行 2.296％的篡改，
PDF2 years ago
针对视频识别网络的无线对抗闪烁攻击
本文介绍了一种可以进行视频分类器对抗攻击的方法，该方法利用了时间信息中的闪烁扰动，并展示了普适对抗扰动和实现对多目标模型的攻击转移能力。
PDF4 years ago
深度学习中绕过后门检测算法
本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。
PDF5 years ago
NIPS法律与对抗式机器学习
研究机器学习系统如何应对对抗性操纵时，探讨了计算机犯罪、版权和侵权法与扰动、污染、模型盗窃和模型反演攻击的接口，呼吁机器学习研究人员投资于透明的攻击和防御基准、考虑监管意识下的机器学习系统架构，并在公民自由的背景下更多思考对抗性机器学习问题
PDF6 years ago
ICML神经网络应足够宽以学习不连续的决策区域
研究表明，深度学习中的 “宽度” 同样重要，特别是激活函数包含泄漏整流线性单元的金字塔结构前馈神经网络可以保证产生连通的决策区域，这对神经网络的构建和分类器的对抗性攻击有着重要的意义。
PDF6 years ago
来自显式偏好的战略分类
研究在线线性分类问题，应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好，提供一个计算有效的学习算法，获得减小的 Stackelberg 后悔以近似于最佳分类器。
PDF7 years ago
机器学习中安全与隐私科学的探索
ML 在安全性方面存在漏洞，提出威胁模型并对攻击进行分类，探究了模型准确性与抗敌对操作的关系。
PDF8 years ago