连续状态 - 动作非高斯系统的集中模型学习和规划

Jul, 2016

连续状态 - 动作非高斯系统的集中模型学习和规划

Focused Model-Learning and Planning for Non-Gaussian Continuous State-Action Systems

Zi Wang, Stefanie Jegelka, Leslie Pack Kaelbling, Tomás Lozano-Pérez

TL;DR引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效，因为只有在计划器需要它们时才估计局部模型；计划器集中于当前规划问题的最相关状态；计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显示了所提出方法的有效性和渐近最优性。在实验上，我们在模拟的多模式推动问题上展示了我们算法的有效性。

Abstract

We introduce a framework for model learning and planning in stochastic domains with continuous state and →

model learning stochastic domains continuous state action spaces planning

发现论文，激发创造

基于模型的离散和连续行动规划

本文介绍了一种使用前向模型的行动计划方法，在离散动作空间中通过反向传播实现规划，使用参数化的动作向量和输入噪声，同时使用策略蒸馏方法，性能优于模型自由 RL 和离散计划方法，可以应用于离散和连续动作空间的模型控制任务。

May, 2017

非稳态环境中的广泛计划与学习的认知性探索

该论文介绍了一种在使用关系表示表示的非平稳随机环境中进行持续规划和模型学习的新方法。

Feb, 2024

具有保证的非线性系统辨识的主动学习

通过提出一种主动学习的方法，该方法不断进行轨迹规划，轨迹跟踪和重新估计系统，并展示了该方法以参数速率估计非线性动态系统，类似于标准线性回归的统计速率。

Jun, 2020

高斯过程状态空间模型本地主动学习

本文提出了一种基于高斯过程状态空间模型的主动学习策略，旨在获取状态操作空间有界子集上的准确模型，并通过模型预测控制集成探索过程中收集的信息和自适应改进探索策略。

May, 2020

非线性状态空间模型的结构化推理网络

本研究提出了一种统一算法，以高效学习一类广泛的线性和非线性状态空间模型为主，包括由深度神经网络建模的发射和转移分布，使用结构化变分逼近参数化的循环神经网络来模拟后验分布，同时学习编译的推理网络和生成模型。通过应用于合成和真实数据集，本算法展现了其可扩展性和通用性，并发现使用结构化的后验近似会导致具有显著更高留存的可能性的模型。

Sep, 2016

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

拓扑引导的带时序目标的连续系统演员 - 评论家模块化学习

本文研究了给定线性时间逻辑高级规范的连续状态随机动态系统的正式策略综合问题。通过在动态系统和翻译的自动机之间进行乘积来构造乘积系统，以学习最大化满足概率的最优策略，并在此过程中提出了一种泛化的优化备份顺序，进一步加速了学习过程，在拓扑顺序的情况下提出了一种演员 - 评论家强化学习算法。通过神经网络来近似值和策略函数，并在 Dubins 小车的运动规划上展示了该正式政策综合框架的实证效果。

Apr, 2023

连续状态空间中的分布可靠随机控制的统计学习

该研究论文介绍了一个分布鲁棒的随机控制范式，能够容纳对分布内可能的自适应敌对扰动的噪声进行考虑，在给定的模糊集合内。通过对两种敌对模型的研究，我们揭示了在不同的动态规划方程下的最优有限样本极小化率，以实现对连续状态下健壮价值函数的统一学习，考虑由 f_k - 散度和 Wasserstein 距离定义的模糊集合。最后，我们展示了我们的框架在各种真实世界环境中的适用性。

Jun, 2024

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

变分高斯过程状态空间模型

该论文介绍了利用稀疏高斯过程进行非线性状态空间建模的高效变分贝叶斯学习的过程，以及后续的可处理的非线性动态系统建模、模型容量和计算成本的平衡、避免过度拟合以及使用混合推理方法（变分贝叶斯和顺序蒙特卡洛）进行主算法等。

Jun, 2014