- 使用目标条件强化学习的路径规划中的全控制智能体
本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明 - 进化策略和强化学习方法在自主代理控制中的定性差异
本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization(PPO)强化学习算法之间的差异,探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对 - 利用图神经网络处理稀疏奖励
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且 - 基于时序逻辑奖励塑形的强化学习分布式控制
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机 - 使用 Q 网络表示的转移强化学习在不同操作空间中的应用
本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性,提出了一种基于源嵌入相似性的奖励塑形方法,可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上,基于两个基线的比较表明我们的方法 - ICML利用广义图绘制实现更好的拉普拉斯表示在强化学习中
该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题,本文提出了一种新的学习方法, 可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示,从而产生更好的奖励塑形和探索性选择。
- ELLA: 通过学习语言抽象进行探索
ELLA 是一种基于奖励塑形的方法,在语言指令与简单低级组成件之间建立相关性,以提高稀疏奖励环境下机器人智能体的样本效率。
- 学习如何利用成形奖励:一种新的奖励成形方法
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖 - 保持距离:通过自平衡的成形奖励解决稀疏奖励任务
该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法,使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务,同时不需要额外的奖励工程或领域专业知识。
- ICML一种基于叙事的奖励塑造方法,使用基于语境的自然语言指令
通过自然语言引导,我们对深度强化学习技术进行了改进,实现了对 StarCraft II 等任务的有效训练,并与传统的奖励塑形方法相比,取得了更好的性能表现。
- Skynet:Pommerman 首届团队大赛中顶尖的 Deep RL Agent
本文介绍了在 Pommerman Team Environment 中使用深度强化学习算法、奖励塑形、课程学习以及自动推理模块等概念训练的两个神经网络,以及开放源代码的智能体,这些是在 NeurIPS 2018 的 Pommerman Te - IJCAI强化学习中使用自然语言进行奖励塑形
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
- 元学习中的奖励塑形
本文提供了一种基于分布任务的 meta-learning 框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从 DQN 到 DDPG 的成功转移等各种设置,展示了探索 shaping 方法的有效性。
- EMNLP神经机器翻译的强化学习研究
本文进行了一项系统性研究,比较了训练 NMT 模型的几个重要因素(例如基线奖励,奖励塑造)在强化学习中的作用,并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能,融合了所有发现,取得了 WMT17 中英翻译任务 - ECCV主动视觉探索的副手策略学习
本文介绍了一种基于 sidekick policy learning 的活动视觉探索方法,增强智能体在仅有有限视野瞥见的情况下,结合奖励塑形和初始政策监督来指导其选择相机运动,进而更加高效地重建整个环境。通过在 360 场景和 3D 对象上 - ICLR截断视野策略搜索:结合强化学习与模仿学习
研究围绕奖励塑造的概念,提出了将模仿学习和强化学习相结合的新思路,通过近似最优的代价预测器将其融合,形成 Truncated HORizon Policy Search (THOR) 方法,以搜索对于近似最优代价预测器的有限规划下实现最大总 - 连续动作空间中的安全探索
本文介绍了一种在物理系统(如数据中心冷却单元或机器人)中部署强化学习代理的方法,通过添加一层安全层,能够避免在学习过程中违反约束条件,并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。
- 强化学习中的函数逼近对称性学习
研究如何利用对称性以实现强化学习的样本效率,引入检测对称性的新方法,并证明其完整性;提供了将发现的对称性用于功能逼近的框架,并证明基于潜在效益的奖励塑形对于利用对称性特别有效;实验表明,利用对称性信息可以显著提高学习性能。
- 用内在的恐惧解决强化学习的西西弗斯诅咒
该研究通过学习奖励塑造技术,引入内在的恐惧机制,保护深度强化学习代理人避免周期性的灾难状态,证明了其鲁棒性和学习速度优势,并在实验中成功解决了多种问题。