BriefGPT.xyz
Ask
alpha
关键词
value-based
搜索结果 - 2
WSDM
离线约束深度强化学习中的营销预算分配
提出一种基于值函数的强化学习方法来解决在线营销活动中利用离线数据进行预算分配的问题,该方法通过使用混合策略减少存储策略的数量,并实现了接近最优策略的效率,经过大规模的营销活动实验证明该方法优于其他基准方法。
PDF
10 months ago
ICLR
带有方差缩减的 Greedy-GQ: 有限时间分析和改进的复杂度
本文介绍了基于价值的增强学习中的一种算法 ——Greedy-GQ 以及其演化版的 VR-Greedy-GQ,通过降低方差,提高了算法的收敛速度,显著减小了误差,同时证明了算法的收敛性和较小的采样复杂度,最后还得出了实验结果。
PDF
3 years ago
Prev
Next