Wordle 的强化学习方法：一种 POMDP / 自适应控制方法

Nov, 2022

Wordle 的强化学习方法：一种 POMDP / 自适应控制方法

Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach

Siddhant Bhambri, Amrita Bhattacharjee, Dimitri Bertsekas

TL;DR本文利用新的增强学习方法解决了流行的 Wordle 谜题，这种方法广泛适用于动态系统的自适应控制和部分可观察马尔科夫决策过程（POMDP）问题的类别，并且优于多种启发式方法；该方法可提供逼近值空间和 rollout 方法的直接实现，并在较低计算成本下，提供接近最优的在线解决策略。本研究方法适用于更复杂的 Wordle 和相关搜索问题，并可应用于估算在线参数的未知或频繁变化的环境中的宽范围自适应顺序决策问题。

Abstract

In this paper we address the solution of the popular wordle puzzle, using new reinforcement learning methods, which apply more generally to adapt

wordle puzzle reinforcement learning dynamic systems pomdp adaptive control

发现论文，激发创造

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

基于模型的强化学习控制反应扩散问题

本文探讨了利用自动控制策略解决热传导和疾病传输的初始边界值问题，通过使用一种基于随机策略梯度方法的改进强化学习算法，并引入了两个新的奖励函数来驱动流体的传输，利用反应扩散模型和修改的代理之间的相互作用，成功实现了对这些应用的某些控制，尽管需要假设模型简化。

Feb, 2024

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

透视强化学习的庞特里亚金方法

传统上，强化学习集中于学习状态相关策略以解决闭环最优控制问题；本文提出了开环强化学习范式，通过学习固定行动序列，引入了三种新算法：一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理，而非动态规划中的贝尔曼方程，我们提供了收敛性保证，并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。

May, 2024

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时间序列方面。

Sep, 2023