该研究提出了一种基于风险感知的奖励塑形方法,以鼓励探索和惩罚高风险驾驶行为,并在 OpenAI Gym 的模拟研究中表明,风险感知的奖励塑形对于各种强化学习智能体具有优势,同时指出近端策略优化(PPO)是最适合使用风险感知奖励塑形的强化学习方法。
Jun, 2023
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
本文综述了深度强化学习在网络安全领域中的多种应用,尤其集中于网络威胁检测和终端保护。
Jun, 2022
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体,以控制无人机;结果表明,与仅使用基于策略的方法训练智能体相比,使用两种技术同时训练的智能体获得了较低的回报,但训练期间达到了更低的执行时间和更少的离散度。
Dec, 2022
本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法,分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出,使用 shaping advice 能够使规则更快地学习任务并获得更高的奖励。
Feb, 2022
本文综述了应用深度强化学习方法来解决网络安全领域中的复杂、动态和高维防御问题的 DRL 方法,并强调了 DRL 在网络物理系统,自主入侵检测和通过游戏模拟来应对网络攻击的策略防御方面的价值,同时也提出了对未来 DRL 网络安全研究发展的建议。
Jun, 2019
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
本文提供了一种基于分布任务的 meta-learning 框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从 DQN 到 DDPG 的成功转移等各种设置,展示了探索 shaping 方法的有效性。
Jan, 2019