Jun, 2023

战略性苹果品鉴

TL;DR本文探讨了在高风险领域中的算法决策,其中涉及到对代理的决策,在对其进行策略性修改的激励下,研究了在线学习问题,使其达到亚线性策略后悔,并提出了实用的解决方案。