Jul, 2024

无需热身的策略优化:在线性马尔可夫决策过程中改进遗憾

TL;DR本文提出一种基于策略优化的算法,通过简单高效的收缩机制替代了昂贵的探索预热阶段,实现了在两种基本设置下的最优遗憾保证,即全信息反馈的对抗性损失和赌博反馈的随机损失。