本文介绍了一个基于深度强化学习和课程驱动方法的方法,该方法可以自动发现领域结构并解决 AI 计划中的 PSPACE 完全问题,这是其他现代求解器无法解决的。
Jun, 2020
研究表明,现成的自动勘探策略可以与人类游戏玩家在相同时间尺度上实现相同的效果,为探索游戏状态空间和提取语义地图等应用贡献了通用方法。
Dec, 2018
我们研究了求解迷宫类问题的 CP 和 SAT 方法,提出了一种新的可达性编码,并通过实验证明这种新编码在以 SAT 为范式的规划问题中,尤其是考虑到同时执行多个动作时是非常适用的。
Oct, 2023
本文利用 Bidirectional A * 算法及三种启发式算法(曼哈顿距离、线性位差和行走距离)解决了 Fifteen Puzzle 问题,并将这三种启发式算法混合运用,有效减少了算法生成状态数和扩展节点数,大大降低了空间复杂度,保证了最优解或接近最优解。
Jan, 2023
通过将传统搜索方法与深度神经网络(DNN)相结合,对 Sokoban 进行了研究,发现 DNN 的策略和价值网络对于搜索具有出色的引导启发作用,特别是策略网络能够避免探索指数大小子树以实现左重尾的多项式缩放,因此随机重启在 DNN-based 搜索方法中也至关重要。
Jun, 2022
本研究探讨了生成棋盘游戏的有针对性的起始位置的问题,利用符号方法和迭代模拟搜索了巨大的状态空间,发现了多种不同难度级别的状态,可以方便新手玩家的学习和掌握,同时也会带来有趣的游戏变体。
Nov, 2014
本文介绍了一种自适应过程任务生成方法(APT-Gen),它通过生成具有丰富变化的适当任务生成优于现有基准测试的结果,以在强化学习中逐步生成一系列任务作为课程。
Jul, 2020
通过使用简单的 Braitentberg 风格启发式方法以及深度强化学习架构,我们展示出在复杂的可视部分观测状态下可以实现对由细胞图构成的迷宫进行导航,而仅使用了 0.8%的状态空间。
Apr, 2024
通过构建依赖图和分析随机漫步的击中时间,我们设计出了一类逃脱房间环境,评估了不同种类的奖励方法和分层策略对于智能体探索能力的影响,并表明超过某个复杂度的环境需要采用分层方法。
Nov, 2018
我们报告了建模和解决 Puzznic 的进展情况,这是一款需要玩家计划移动序列以匹配方块从而清理网格的视频游戏,我们在没有移动方块的关卡上比较了计划方法和三种约束编程方法在一小组基准实例上的表现,目前计划方法优于约束编程方法,但我们提出了改进约束模型的建议。