基于模拟的强化学习智能体针对个性化零售促销的基准测试

May, 2024

基于模拟的强化学习智能体针对个性化零售促销的基准测试

Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions

Yu Xia, Sriram Narayanamoorthy, Zhengyuan Zhou, Joshua Mabry

TL;DR本研究介绍了一个开放的基准测试平台，可以加速零售领域中人工智能代理的应用。通过对顾客购物行为进行综合模拟，对优化优惠券目标的强化学习（RL）代理进行了基准测试。该研究通过使用离线批量数据训练代理，以减少由于顾客购买事件稀疏性带来的学习困难。实验结果显示，相对于静态策略，上下文决策和深度强化学习方法在稀疏奖励分布上过拟合的问题上较少，表现出更好的性能。本研究提供了一个实用的框架，用于模拟优化整个零售顾客旅程的人工智能代理，并鼓励进一步发展零售人工智能系统的模拟工具。

Abstract

The development of open benchmarking platforms could greatly accelerate the adoption of ai agents in retail. This paper presents comprehensive simulations of →

open benchmarking platforms ai agents reinforcement learning coupon targeting customer shopping behaviors

发现论文，激发创造

RetailSynth: 面向零售 AI 系统评估的综合数据生成

本文提出了一个多阶段模型来模拟顾客购物行为，将其嵌入一个模拟环境 RetailSynth 中，用于验证多类别零售的因果需求模型并将真实价格敏感性纳入个性化定价、促销和产品推荐的新兴基准套件。

Dec, 2023

通过基于模拟的强化学习的自动音乐播放列表生成

使用强化学习技术，在模拟的歌单生成环境中直接优化用户满意度指标，从而实现对大规模和动态候选歌曲集的个性化推荐。通过离线模拟和在线 A/B 测试验证，该方法相对于基线方法在用户满意度指标上表现更好，并且通过模拟器得到的性能评估与在线指标结果强相关。

Oct, 2023

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在 RecSys 和 RTB 中进一步促进实证研究的开放挑战和解决方案。

Sep, 2021

智能体市场模拟中的强化学习：揭示现实的艺术事实和行为

我们研究了一种基于强化学习代理的代理市场模拟框架，并展示了该框架在模拟市场的实现细节和真实市场观察到的特征。我们还研究了强化学习代理在面临外部市场影响（如闪崩）时的行为，并对其在重要市场事件中的响应提供了深入洞察。

Mar, 2024

通过强化学习在价格比较网站上进行的保险定价

利用强化学习及离线数据集，本文提出了一种能应对保险公司在价格比较网站中面临的挑战的优化定价策略，该策略通过整合基于模型的和无模型方法来学习最优定价政策，并在动态市场中实时更新以最大化预期收益。研究结果验证了该方法在离线数据集上的有效性和卓越性能。

Aug, 2023

具有偏倚离线数据和不完善模拟器的强化学习基准

许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果表明，这些基准对未来研究至关重要。

Jun, 2024

虚拟淘宝：将现实在线零售环境虚拟化用于强化学习

采用强化学习应用于物理任务非常具有挑战性，本文通过建立 “Virtual Taobao” 模拟器，在虚拟环境下使用 GAN-SD 和 MAIL 进行训练，证明其性能优越，表明其在复杂物理环境中具有应用潜力。

May, 2018

在线强化学习算法使用重采样评估个性化是否实现

该论文介绍了一种基于强化学习和在线学习的数据驱动方法，可以实现用户个性化健康治疗序列的优化。通过案例研究，论文使用重新取样方法对算法个性化进行评估，提高了算法的真实性，对于真实应用也具有参考价值。

Apr, 2023

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017