Nov, 2022

Wordle 的强化学习方法:一种 POMDP / 自适应控制方法

TL;DR本文利用新的增强学习方法解决了流行的 Wordle 谜题,这种方法广泛适用于动态系统的自适应控制和部分可观察马尔科夫决策过程(POMDP)问题的类别,并且优于多种启发式方法;该方法可提供逼近值空间和 rollout 方法的直接实现,并在较低计算成本下,提供接近最优的在线解决策略。本研究方法适用于更复杂的 Wordle 和相关搜索问题,并可应用于估算在线参数的未知或频繁变化的环境中的宽范围自适应顺序决策问题。