解决组合复杂度高的长视界深度强化学习任务的挑战

Jun, 2022

解决组合复杂度高的长视界深度强化学习任务的挑战

Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks

Andrew C. Li, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith

TL;DR通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Abstract

deep reinforcement learning has shown promise in discrete domains requiring complex reasoning, including games such as Chess, Go, and Hanabi. However, this type of reasoning is less often observed in long-horizon

deep reinforcement learning continuous domains complex reasoning optimization problems hierarchical rl

发现论文，激发创造

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

组合优化的强化学习：一项调查研究

本文综述了近期在强化学习领域中在解决组合优化问题方面的进展，包含了 RL 框架与传统算法的比较以及各方法解决不同问题的时间线，结果表明基于 RL 的模型成为解决组合问题的方向值得期待。

Mar, 2020

LLM 增强分层代理

利用强化学习解决长期和拓展性任务很具挑战性，特别是在没有先验知识的情况下，为了提高样本效率，本文通过利用 LLMs 的规划能力结合强化学习的环境学习，构建了一个层次化代理，用于解决长期任务，并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能，且训练完成后不需要依赖 LLMs 进行部署。

Nov, 2023

基于技能的元强化学习

本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法，以实现复杂、长期目标的快速解决，可以显著提高样本效率并减少与环境的交互次数。

Apr, 2022

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

深度强化学习在预算内的应用: 3D 控制和推理无需超级计算机

本文介绍了使用简化的三维环境 (ViZDoom) 训练智能体进行复杂推理和探索的基准方案，以提高 Deep-RL 领域的可访问性和减少对大量计算资源的需求。

Apr, 2019

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016