Jan, 2025

基于蒙特卡洛搜索的在线策略改进

TL;DR本研究针对实时自适应控制器的策略改进问题,提出了一种蒙特卡洛模拟算法。该算法通过统计测量每个可能动作的长期期望回报,基于初始策略进行决策,从而显著降低了基础玩家的误差率,具有较大的应用潜力。