通用游戏的空间状态 - 行为特征 | BriefGPT

Jan, 2022

通用游戏的空间状态 - 行为特征

Spatial State-Action Features for General Games

PDF

Dennis J.N.J. Soemers, Éric Piette, Matthew Stephenson, Cameron Browne

TL;DR本文提出了一种可有效设计和实现通用游戏空间状态 - 动作特征的方法，并提供了适用于广泛不同游戏使用的设计和具体实现，这种方法可以训练出符合本地区域状态变量的特征，以此来激励或者抑制动作。

Abstract

In many board games and other abstract games, patterns have been used as features that can guide automated →

game-playing agents abstract games automated patterns spatial state-action features

发现论文，激发创造

通用游戏的战略特征

本文介绍了一项正在进行的研究项目，旨在实现大量数字版棋盘游戏的自动化自我学习和评估，并描述了我们采取的方法来确定相关特征，以偏置在任意几何形状上玩的任意游戏的 MCTS 模拟。我们的方法的好处包括高效实现，潜在的将所学知识转移到新的场景中，以及潜在的解释以人类可理解的术语嵌入特征中的战略知识。

Jan, 2021

发现用于通用任务和动作规划的状态和动作抽象

本文提出一种算法，用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明，仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。

Sep, 2021

学习特征和抽象行动以计算广义计划

本文介绍了一种结合自动学习和规划的方法来解决泛化计划问题，主要通过 Max SAT 表达式从已知实例的状态变迁中自动学习特征和抽象动作，并使用 fully observable 非确定性规划器生成泛化计划。实验结果展示了该方法的有效性。

Nov, 2018

移动机器人操作的空间动作地图

本文研究机器人导航中的动作表示，提出了 “空间动作地图” 概念，使用卷积神经网络从状态图像推断出空间动作地图，从而显著加快了使用强化学习方法实现移动操作任务的复杂行为的学习

Apr, 2020

广义规划中的特征、投影和表示变化

本文将广义规划的标准公式扩展到包括关系型规划域，通过使用抽象动作进行策略生成和基于 FOND 计划器的计算。

Jan, 2018

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

学习用于符号规划的通用类型动作

提出了一种通过给定的实体层次结构和观察到的相似行为来泛化符号动作的新概念，证明在虚拟的网格化厨房环境中可以从少量观察中学习到类型泛化的动作，并且在规划过程中引入了一种即时泛化机制，能够解决包括更长序列、新实体和未预期环境行为的未见任务组合。

Aug, 2023

具备继承特性的选项传输和 SMDP 抽象

本文研究了强化学习中的联合时间和状态抽象，其中采用继承特征的新颖抽象机制，使得抽象选项可以在不同环境下转移并进行有效规划。

Oct, 2021

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

学习基于一阶符号计划的基础表达

本研究提出了一种新的学习规划模型的方法，其既有组合方法学习清晰的动作模板，又能够从图像空间中产生动作模板，这是结合前两种方法的优势的一步。

Apr, 2022