Sep, 2024

具有前瞻信息的非平稳马尔可夫决策过程的预测控制与悔恨分析

TL;DR本研究针对非平稳马尔可夫决策过程中的政策设计难题,提出了一种新的算法,利用前瞻预测信息降低悔恨。理论分析表明,在特定假设下,随着前瞻窗口的扩大,悔恨呈指数级减少,而在预测误差存在的情况下,悔恨不会剧增。我们的模拟验证了算法在非平稳环境中的有效性。