Jun, 2024

学习覆盖:在线学习和优化与不可逆决策

TL;DR通过限制在线学习和优化策略的探索次数,将不确定性减少为最低程度,从而最小化成本并实现覆盖目标。