通过强化学习在价格比较网站上进行的保险定价

Aug, 2023

通过强化学习在价格比较网站上进行的保险定价

Insurance pricing on price comparison websites via reinforcement learning

Tanut Treetanthiploet, Yufei Zhang, Lukasz Szpruch, Isaac Bowers-Barnard, Henrietta Ridley...

TL;DR利用强化学习及离线数据集，本文提出了一种能应对保险公司在价格比较网站中面临的挑战的优化定价策略，该策略通过整合基于模型的和无模型方法来学习最优定价政策，并在动态市场中实时更新以最大化预期收益。研究结果验证了该方法在离线数据集上的有效性和卓越性能。

Abstract

The emergence of price comparison websites (PCWs) has presented insurers with unique challenges in formulating effective pricing strategies

price comparison websites insurers pricing strategies reinforcement learning offline dataset

发现论文，激发创造

经济平台上 AI 勾结的缓解学习

本文探讨算法定价在电子商务平台上产生的隐性勾结问题，并介绍了设计 ' 购买框 ' 规则来预防勾结定价的方法，同时提出了利用强化学习算法学习有效购买框规则的方法，并通过 Stackelberg POMDPs 方法，成功地制定出在不同销售行为模式和商品成本分布的情况下仍能提供高消费者福利的稳健规则。

Feb, 2022

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

基于模拟的强化学习智能体针对个性化零售促销的基准测试

本研究介绍了一个开放的基准测试平台，可以加速零售领域中人工智能代理的应用。通过对顾客购物行为进行综合模拟，对优化优惠券目标的强化学习（RL）代理进行了基准测试。该研究通过使用离线批量数据训练代理，以减少由于顾客购买事件稀疏性带来的学习困难。实验结果显示，相对于静态策略，上下文决策和深度强化学习方法在稀疏奖励分布上过拟合的问题上较少，表现出更好的性能。本研究提供了一个实用的框架，用于模拟优化整个零售顾客旅程的人工智能代理，并鼓励进一步发展零售人工智能系统的模拟工具。

May, 2024

可持续的在线强化学习用于自动竞价

本文中，我们提出了一种可持续的在线强化学习（SORL）框架，该框架通过与实际广告系统（RAS）直接交互来训练自动出价策略，从而避免了问题在离线虚拟广告系统（VAS）中进行 RL 训练过程。这一方法包括安全高效的在线探索（SER）策略、方差抑制保守 Q 学习（V-CQL）方法等，能够有效地学习自动出价策略并提高自动出价算法的表现。

Oct, 2022

公平与不公平：用深度强化学习量化市场模拟中的勾结

电子商务中基于人工智能的定价算法，特别是利用强化学习的算法，正变得越来越普遍。这项研究通过实验性寡头垄断模型的多次价格竞争，系统地改变环境以涵盖从基础经济理论到主观消费者需求偏好的各种情况，探究了代理人开发的策略和新兴定价模式，可能导致共谋结果。此外，我们还调查了代理无法观察到竞争对手价格的情景，并对所有情景进行了综合法律分析。我们的研究发现，基于强化学习的人工智能代理会趋于一种共谋的状态，其特点是收取超竞争价格，而无需进行代理间通信。实施其他强化学习算法，改变代理数量或模拟设置，以及限制代理的观察范围不会显著影响共谋市场的结果行为。

Jun, 2024

基于轨迹的迭代强化学习框架用于自动投标

在线广告中，通过使用增强学习的自动竞价算法，部署多个自动竞价代理进行数据收集与训练，提出了一种迭代的离线增强学习框架，通过轨迹的探索和利用方法进行数据采集与利用，以解决传统离线增强学习算法的有效探索和开发性能瓶颈，并结合安全探索和适应性行动选择来确保在线探索的安全性和数据集质量，通过阿里巴巴展示广告平台的实际和离线实验，验证了所提出方法的有效性。

Feb, 2024

强化学习推进可再生电力消费

为了解决再生能源的间歇性对无碳电力发电的最大挑战，我们提出了一种电力定价代理，采用增强学习方法实现定价策略，通过价格信号鼓励顾客将用电需求转向高再生能源时段。

Mar, 2020

面向需求响应的最优定价 —— 非参数约束策略优化方法

本文提出了一种创新的非参数约束策略优化方法，解决了基于价格的需求响应问题中，如何保证策略的稳定性和最优性的问题，并且采用一种高效的策略优化算法，得到了比现有强化学习算法更好的表现。

Jun, 2023

基于组合多臂赌博机和分层斯塔克尔贝格博弈的在线提示定价

我们提出了一种适用于即时交易市场的新型交易场景 —— 即时捆绑交易系统 (Prompt Bundle Trading System)，并且基于组合多臂赌博 (CMAB) 和三阶层次斯塔克尔伯格 (HS) 博弈提出了一种在线定价机制。该定价机制同时考虑到消费者、平台和卖家的利润，实现了这三个参与者的利润满意度，将定价问题分解为两个步骤：未知品类选择和激励策略优化。与现有的固定定价模式不同，我们提出的即时捆绑交易定价机制更加灵活多样，更符合现实场景的交易需求。我们在一个模拟的文本到图像数据集上测试了我们的方法，实验结果证明了我们算法的有效性，为即时市场提供了可行的定价标准。

May, 2024

优化搜索广告策略：将强化学习与广义第二价格拍卖相结合以实现增强型广告排名和出价

本文探讨了在电子商务平台中将战略优化方法引入搜索广告领域，重点关注广告排名和竞价机制。通过结合强化学习和进化策略，我们提出了一个动态模型，能够根据用户交互的变化优化广告成本、用户相关性和平台收益的平衡。我们的研究结果表明，在广告投放准确性和成本效率方面取得了显著的改进，证明了该模型在实际场景中的适用性。

May, 2024