BriefGPT.xyz
Ask
alpha
关键词
online deep reinforcement learning
搜索结果 - 3
深度终身强化学习的统计上下文检测
在线的深度强化学习环境中,使用最优输运方法中的距离度量来测量过去和当前数据流中数据点组合之间的距离,并使用经过适应的 Kolmogorov-Smirnov 计算进行统计测试,以为经验序列分配标签。任务检测和策略部署的结合允许优化终身强化学习
→
PDF
a month ago
使用从稀疏奖励演示中学到的平滑引导奖励的策略优化
通过使用离线演示算法,提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法,该算法能够解决奖励反馈稀疏性的问题,并在稀疏奖励环境中实现可靠有效的长期
→
PDF
6 months ago
在线深度强化学习黑盒目标化奖励中毒攻击
本文提出了一种针对在线深度增强学习的黑盒定向攻击方法,通过在训练时进行奖励污染,攻击突破了未知环境和未知算法的限制,并且攻击成本较低。作者通过实验验证,在不同的环境和学习器中,攻击可以高效地导致学习代理到达各种目标策略。
PDF
a year ago
Prev
Next