交替式好状态马尔可夫决策自动机

May, 2022

交替式好状态马尔可夫决策自动机

Alternating Good-for-MDP Automata

Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi...

TL;DR本研究发现，当使用好的 MDP Buchi 自动机来代替确定性 Rabin 自动机时，可以更好地将 omega-regular 目标使用于模型无关的强化学习中，并且使用 Streett 自动机所得到的交替好的 MDP 自动机，可以比最小的非确定性 Buchi 自动机更加简洁。

Abstract

When omega-regular objectives were first proposed in model-free reinforcement learning (RL) for controlling MDPs, deterministic Rabin automata were used in an attempt to provide a direct translation from their transitions to scalar values. While these translations failed, it has turned

omega-regular objectives model-free reinforcement learning good-for-mdps büchi automata nondeterministic automata alternating good-for-mdp automata

发现论文，激发创造

从不确定性 Büchi 和 Streett 自动机到确定性 Parity 自动机

本研究重新审视了 Safra 关于无限词汇自动机确定性构造的技术，并通过减少状态数和引入奇偶数接受条件等方法，提出了新的构造方式。通过使用我们构造出的更小的确定性自动机，可以降低关于树自动机、CTL * 可满足性、逻辑规范的实现和综合等领域的上限，并且能够使用更高效的算法。

May, 2007

使用隐马尔可夫模型的自动机学习任务自动化增强学习

该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法，可以将任务拆分为其构成子任务，提高了 RL 代理后续合成最优策略的速率，并提供了一个可解释的编码高级环境和任务特征的方式。

Aug, 2022

无模型强化学习中的 Omega-Regular 目标

以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Sep, 2018

学习部分可观测环境的有限状态控制器

本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法，具体探讨在部分可观测的 MDP 问题中，基于随机梯度下降的 VAPS 算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问题，通过实证研究验证了该算法在补偿每个时间步上的不可观测性方面发挥了良好的效果。

Jan, 2013

连续时间 MDP 的 Omega 正则规范的强化学习

探究离散时间 Markov 决策过程的自动翻译问题，提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况，并使用了最新的基于转义的自动翻译技术。

Mar, 2023

混合非确定性 - 概率自动机：将图形概率模型与非确定性融合

本文提出了一个新的模型混合自动机（非确定性 / 概率性），它不仅包括了非确定性自动机，还包括了图形化概率模型，并且它配备了与图形化概率模型继承的并行组合、模拟关系和支持消息传递算法。Segala 的概率自动机可以映射到混合自动机。

Jan, 2022

非均匀多项式大小的非确定有限自动机的非模糊性和有限性

在过去的文献中，非均匀的多项式大小有限自动机被用来解决非均匀的承诺决策问题。我们重点关注非确定性有限自动机的变体，它们具有至多一个（无歧义的）、多项式多个（少量的）接受计算路径，或者无歧义 / 少量计算路径导致每个固定配置。当这些机器仅能进行单向头移动时，可以证明在没有未经证明的困难假设的情况下，其中一些变体在计算能力上与其他变体不同。至于限制在多项式有界长度的实例上的两向机器，双向多项式大小的非确定性有限自动机和多项式大小的无歧义有限自动机在计算能力上是等效的。

Nov, 2023

生成式语言模型中的自动机表示式任务知识

提出一种名为 GLM2FSA 的算法，该算法通过从任务目标的自然语言描述中提取任务知识生成有限状态自动机，从而填补了自然语言任务描述和基于自动机的表示之间的鸿沟。

Dec, 2022

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

使用查询和反例学习确定性加权自动机

该研究介绍了一种从黑盒语言模型中提取概率确定有限自动机（PDFA）的算法，并在应用于循环神经网络（RNN）时，通常比从同一网络中提取加权有限自动机（WFA）的谱提取法实现更好的单词错误率（WER）和标准化分布累计收益（NDCG）。

Oct, 2019