Apr, 2024

在线策略学习与矩阵补全的推理

TL;DR基于矩阵完成赌徒问题 (MCB) 和在线梯度下降算法,探索碎状历史特征的在线决策问题。研究比较不同勘探概率和步长调度下的策略学习和后悔表现,同时研究基于反向反比加权 (IPW) 的去偏方法和在线策略推理的通用框架,通过实验验证理论结果,应用于旧金山停车定价项目数据,取得了引人注目的发现和超过基准策略的表现。