使用课程驱动的深度强化学习解决困难的人工智能计划实例

IJCAIJun, 2020

使用课程驱动的深度强化学习解决困难的人工智能计划实例

Solving Hard AI Planning Instances Using Curriculum-Driven Deep Reinforcement Learning

Dieqiao Feng, Carla P. Gomes, Bart Selman

TL;DR本文介绍了一个基于深度强化学习和课程驱动方法的方法，该方法可以自动发现领域结构并解决 AI 计划中的 PSPACE 完全问题，这是其他现代求解器无法解决的。

Abstract

Despite significant progress in general ai planning, certain domains remain out of reach of current ai planning systems. sokoban is a

ai planning sokoban pspace-complete deep reinforcement learning training curriculum

发现论文，激发创造

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

超越 Tabula-Rasa: 一种用于物理嵌入式 3D Sokoban 的模块化强化学习方法

该论文探讨了将模块化 RL 方法应用于 Mujoban 任务的可行性，并证明了模块化 RL 方法比仅有一个单一 RL 代理的方法更加优越。

Oct, 2020

Sokoban 初始状态的程序化生成

本文提出了一种使用模式数据库启发式和新颖性来改进搜索方法探索的难度指标的 Beta 系统，可以生成比人类专家设计的更难解的 Sokoban 难题初始状态。

Jul, 2019

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

基于深度神经网络的 Sokoban 计划中左重尾的影响及其策略和价值网络的有效性

通过将传统搜索方法与深度神经网络（DNN）相结合，对 Sokoban 进行了研究，发现 DNN 的策略和价值网络对于搜索具有出色的引导启发作用，特别是策略网络能够避免探索指数大小子树以实现左重尾的多项式缩放，因此随机重启在 DNN-based 搜索方法中也至关重要。

Jun, 2022

网格图可达性和益智游戏

我们研究了求解迷宫类问题的 CP 和 SAT 方法，提出了一种新的可达性编码，并通过实验证明这种新编码在以 SAT 为范式的规划问题中，尤其是考虑到同时执行多个动作时是非常适用的。

Oct, 2023

解释性概念瓶颈以对齐强化学习智能体

深度强化学习中，奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题，我们引入了连续概念瓶颈代理（SCoBots），通过整合连续的概念瓶颈层使整个决策过程变得透明，使得领域专家能够理解和纠正模型的错误行为，并证明 SCoBots 能够实现更好的与人类一致的强化学习。通过在 Pong 等视频游戏中的应用，SCoBots 帮助我们识别和解决了错位问题。

Jan, 2024

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

使用领域独立规划器和标准表示解决鲁比克魔方

这篇论文介绍了在流行的 PDDL 语言中第一个魔方（Rubik's Cube）表示法，这使得该领域对于 PDDL 规划者、竞赛和知识工程工具更具可访问性和人类可读性，并通过比较不同方法的性能来提供有关代表性选择和计划优化之间权衡的宝贵见解，以帮助研究者设计未来挑战性领域的策略。

Jul, 2023

无需人类知识解决魔方

自学习算法 Autodidactic Iteration 可以在没有人类协助的情况下解决魔方问题，并且其解决问题的长度小于或等于采用人类领域知识的算法。

May, 2018