学习随机领域的符号模型

Oct, 2011

Learning Symbolic Models of Stochastic Domains

L. P. Kaelbling, H. M. Pasula, L. S. Zettlemoyer

TL;DR本文探讨发展在复杂世界中可以学习行动的代理程序的目标，并开发了一种概率关系计划规则表示，以紧凑地模拟有噪声，不确定性的行动效果，并展示了这种规则的有效学习方法。通过在简单规划领域和具有逼真物理的三维模拟块世界的实验，我们证明了这种学习算法使代理程序能够有效地模拟世界动态。

Abstract

In this article, we work towards the goal of developing agents that can learn to act in complex worlds. We develop a probabilistic, relational planning rule representation that compactly models noisy, nondetermin

agents learning algorithm relational planning rule world dynamics physics

发现论文，激发创造

从嘈杂不完整的观测中学习 STRIPS 运算符

本文研究如何使智能代理能够在真实环境中自主行动，提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法，能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。

Oct, 2012

由实际到逻辑再到实践：从原始数据中创造符号词汇、行动和模型的规划方法

本文介绍了一种自主学习的方法，通过无标注的高维真实值机器人轨迹，自动学习抽象状态和动作的可推广的基于逻辑的关系表示，形成了自动发明的类似 PDDL 的领域模型。通过确定性设置的实证结果表明，仅凭少量机器人轨迹就可以学习到强大的抽象表示，所学的关系表示包括但超越了高级动作的经典直观概念，并且学习的模型使得规划算法能够扩展到以前超出手工构思抽象的任务范围。

Feb, 2024

从无序和嘈杂计划痕迹中学习动作模型

本文提出了一种基于 MAX-SAT 框架的方法，用于自动学习规划系统的领域模型，通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型，并通过系统实证评估证明了该方法的有效性

Aug, 2019

在随机领域中使用抽象化进行可解释的机器人程序设计

该研究提出了一种抽象方法，将高层次、非随机的机器人模型映射到低层次、随机的模型中，从而消除传感器噪声对机器人行为模型的影响，简化行为模型的可理解性。

Jul, 2022

通过技能多样性利用近似符号模型进行强化学习

本文介绍了近似符号模型引导的强化学习方法，该方法将字符的建模与底层措施相结合，以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。

Feb, 2022

学习部分可观察的确定性动作模型

研究了如何在动态部分可观测领域中识别确定性动作效果和先决条件，并提出了可行的算法来解决这个问题。

Jan, 2014

利用探索性规划进行自主学习动作模型

本文提出了一种新型的探索计划代理，它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果，优化探索和行动模型学习，运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法，并在探索为中心的视频游戏场景中进行实证评估。

Mar, 2022

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023

学习符号表示的主动探索

提出一种在线主动探索算法，能够高效地从数据中学习环境的抽象符号模型，并采用贝叶斯模型引导其未来的探索。通过两个计算机游戏领域的实验验证，证明该算法优于随机和贪婪的探索策略。

Sep, 2017

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020