Nov, 2024

在未知转移和带宽反馈下击败对抗性低秩马尔可夫决策过程

TL;DR本研究解决了低秩马尔可夫决策过程中的遗憾最小化问题,聚焦于未知转移的全信息损失反馈和带宽损失反馈的设置。论文提出改进的算法,使得在全信息未知转移情况下的遗憾界限达到$poly(d, A, H)T^{2/3}$,并首次探讨了在带宽损失反馈与未知转移的条件下的算法,揭示线性结构对带宽情况下的必要性,对比全信息情况下的不同表现。