使用课程驱动的深度强化学习解决困难的人工智能计划实例
通过在物理引擎中嵌入具有挑战性的符号任务(Sokoban,井字棋和围棋),引出了一组需要长时间视觉、推理和电机控制的任务,研究了现有的强化学习算法在这样的物理系统中的表现。同时,研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示,缩小抽象规划和物体控制之间的差距的方案。
Sep, 2020
该论文探讨了将模块化 RL 方法应用于 Mujoban 任务的可行性,并证明了模块化 RL 方法比仅有一个单一 RL 代理的方法更加优越。
Oct, 2020
本文提出了一种使用模式数据库启发式和新颖性来改进搜索方法探索的难度指标的 Beta 系统,可以生成比人类专家设计的更难解的 Sokoban 难题初始状态。
Jul, 2019
通过提出一系列机器人任务,不需要额外的专业探索便可解决的优化问题,研究发现标准强化学习方法往往由于折扣而忽视长期影响,而通用层次强化学习方法则需要额外的抽象领域知识。
Jun, 2022
通过将传统搜索方法与深度神经网络(DNN)相结合,对 Sokoban 进行了研究,发现 DNN 的策略和价值网络对于搜索具有出色的引导启发作用,特别是策略网络能够避免探索指数大小子树以实现左重尾的多项式缩放,因此随机重启在 DNN-based 搜索方法中也至关重要。
Jun, 2022
我们研究了求解迷宫类问题的 CP 和 SAT 方法,提出了一种新的可达性编码,并通过实验证明这种新编码在以 SAT 为范式的规划问题中,尤其是考虑到同时执行多个动作时是非常适用的。
Oct, 2023
深度强化学习中,奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题,我们引入了连续概念瓶颈代理(SCoBots),通过整合连续的概念瓶颈层使整个决策过程变得透明,使得领域专家能够理解和纠正模型的错误行为,并证明 SCoBots 能够实现更好的与人类一致的强化学习。通过在 Pong 等视频游戏中的应用,SCoBots 帮助我们识别和解决了错位问题。
Jan, 2024
这篇论文介绍了在流行的 PDDL 语言中第一个魔方(Rubik's Cube)表示法,这使得该领域对于 PDDL 规划者、竞赛和知识工程工具更具可访问性和人类可读性,并通过比较不同方法的性能来提供有关代表性选择和计划优化之间权衡的宝贵见解,以帮助研究者设计未来挑战性领域的策略。
Jul, 2023