Apr, 2024

长期离线策略评估与学习

TL;DR使用只有历史和短期实验数据的可行方法准确估计算法的长期结果