利用一阶回归进行归纳策略选择

Jul, 2012

Exploiting First-Order Regression in Inductive Policy Selection

Charles Gretton, Sylvie Thiebaux

TL;DR我们研究了基于关系型马尔可夫决策过程的最优泛化策略计算问题，提出了一种结合归纳技术和符号动态规划方法的方法，以自动生成与问题领域相关的假设语言作为归纳求解器的输入来回避复杂的符号动态规划推理。

Abstract

We consider the problem of computing optimal generalised policies for relational markov decision processes. We describe an approach combining some of the benefits of purely →

generalised policies relational markov decision processes inductive techniques symbolic dynamic programming methods value functions

发现论文，激发创造

基于归纳的一阶 MDP 策略选择

通过使用第一阶表示中的紧凑策略来选择大型马尔可夫决策过程的策略，我们通过训练数据来诱导第一阶策略，使用具有分类概念语言的决策列表的合集来表示我们的策略，我们发现此方法在概率领域中具有优越的效果，并讨论了此方法在关系加固学习问题上的应用。

Dec, 2012

一阶 MDP 的近似线性规划

本文提出了一种基于线性规划的解决方法，通过将价值函数在一组一阶基函数的线性表示中计算适当的权值，解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面，具有丰富的特征空间和多标准加性奖励，证明了其优于许多直观、启发式指导政策。

Jul, 2012

从规约中归纳推理的强化学习

我们提出了一个新颖的归纳一般化框架，用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系，学习生成适应归纳任务实例的策略生成器，以实现对长期任务中未见策略的广义化。

Jun, 2024

一阶概率推理的对数线性模型

该论文探讨了在概率约束逻辑编程中对数线性模型的研究，并将其应用到一阶概率推理中，介绍了基于标记和未标记的确定性子句确定证明概率的随机逻辑程序概率定义，通过归一化证明概率中原子公式本身的概率，扩展了相关理论，同时通过归纳逻辑编程从数据中归纳出对数线性模型的特征，最后用其他方法对其进行比较。

Jan, 2013

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

鲁棒马尔科夫决策过程的一阶策略优化

研究如何解决具有不确定转移内核的折现，有限状态，有限行动空间 MDP 的强鲁棒性问题，旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比，本文提出了一个名为 RPMD 的策略型一阶方法，并对于两种递增步长的情形，建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。

Sep, 2022

从状态空间结构学习规划的一阶符号表示

通过将规划器使用的一阶符号表示从编码状态空间结构的非符号输入中学习，我们解决了图像与符号之间的鸿沟，这意味着推断一个完整的一阶表示（即一般的动作模式、关系符号和对象）来解释所观察到的状态空间结构。

Sep, 2019

深度符号回归：通过寻求风险策略梯度从数据中恢复数学表达式

提出了利用深度学习解决符号回归的框架，该框架使用循环神经网络生成数学表达式分布，并使用新颖的风险寻求策略梯度来训练网络生成更好的拟合表达式。该算法在一系列基准问题中表现优于几种基准方法，包括符号回归的黄金标准 Eureqa。

Dec, 2019

强化学习的一阶政策优化方法实现鲁棒政策评估

我们采用政策优化观点对具有 s - 矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估（FRPE），为确定性（离线）和随机（在线）设置下的鲁棒政策评估提供了第一种统一框架，无论是表格表示还是通用函数逼近。具体而言，我们在确定性设置中建立了线性收敛性，并在随机设置中具有 O (1/ε^2) 的抽样复杂度。FRPE 还自然地推广到具有 (s, a)- 矩形不确定性集的鲁棒状态 - 动作值函数的评估。我们讨论了将所开发结果应用于大规模鲁棒 MDP 的随机政策优化。

Jul, 2023

具有资格追踪的离线学习：一份调查报告

采用资格追踪技术对现有算法进行了系统的改进，并提出了新的扩展算法，比较实验结果表明标准的 on-policy 和 off-policy LSTD（λ）/LSPE（λ）算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD（λ）算法最佳。

Apr, 2013