May, 2024

基于模拟的强化学习智能体针对个性化零售促销的基准测试

TL;DR本研究介绍了一个开放的基准测试平台,可以加速零售领域中人工智能代理的应用。通过对顾客购物行为进行综合模拟,对优化优惠券目标的强化学习(RL)代理进行了基准测试。该研究通过使用离线批量数据训练代理,以减少由于顾客购买事件稀疏性带来的学习困难。实验结果显示,相对于静态策略,上下文决策和深度强化学习方法在稀疏奖励分布上过拟合的问题上较少,表现出更好的性能。本研究提供了一个实用的框架,用于模拟优化整个零售顾客旅程的人工智能代理,并鼓励进一步发展零售人工智能系统的模拟工具。