BriefGPT.xyz
Jan, 2025
基于蒙特卡洛搜索的在线策略改进
On-line Policy Improvement using Monte-Carlo Search
HTML
PDF
Gerald Tesauro, Gregory R. Galperin
TL;DR
本研究针对实时自适应控制器的策略改进问题,提出了一种蒙特卡洛模拟算法。该算法通过统计测量每个可能动作的长期期望回报,基于初始策略进行决策,从而显著降低了基础玩家的误差率,具有较大的应用潜力。
Abstract
We present a
Monte-Carlo
Simulation
algorithm for real-time
Policy Improvement
of an adaptive controller. In the
→