通用游戏的空间状态 - 行为特征
本文介绍了一项正在进行的研究项目,旨在实现大量数字版棋盘游戏的自动化自我学习和评估,并描述了我们采取的方法来确定相关特征,以偏置在任意几何形状上玩的任意游戏的 MCTS 模拟。我们的方法的好处包括高效实现,潜在的将所学知识转移到新的场景中,以及潜在的解释以人类可理解的术语嵌入特征中的战略知识。
Jan, 2021
本文提出一种算法,用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明,仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。
Sep, 2021
本文介绍了一种结合自动学习和规划的方法来解决泛化计划问题,主要通过 Max SAT 表达式从已知实例的状态变迁中自动学习特征和抽象动作,并使用 fully observable 非确定性规划器生成泛化计划。实验结果展示了该方法的有效性。
Nov, 2018
本文研究机器人导航中的动作表示,提出了 “空间动作地图” 概念,使用卷积神经网络从状态图像推断出空间动作地图,从而显著加快了使用强化学习方法实现移动操作任务的复杂行为的学习
Apr, 2020
本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。
Nov, 2022
提出了一种通过给定的实体层次结构和观察到的相似行为来泛化符号动作的新概念,证明在虚拟的网格化厨房环境中可以从少量观察中学习到类型泛化的动作,并且在规划过程中引入了一种即时泛化机制,能够解决包括更长序列、新实体和未预期环境行为的未见任务组合。
Aug, 2023