BriefGPT.xyz
Ask
alpha
关键词
policy-based deep rl agents
搜索结果 - 1
基于漏洞感知的在线 RL 中的毒化机制及未知动态
通过对异构攻击模型进行全面研究,本文建立了一个通用的强化学习在线毒化框架。在没有任何先验知识的情况下,我们提出了一种名为 VA2C-P 的策略毒化算法,通过度量 RL 的稳定半径来实现漏洞感知,成功防止了代理学习良好策略并教会代理方案收敛于
→
PDF
4 years ago
Prev
Next