本文介绍了一种新颖的上下文强化学习算法,用于在具有不确定需求的情况下,根据效用公平性约束进行个性化定价,实现最优的遗憾上限。我们的方法结合动态定价和需求学习,解决了定价策略中的公平性的关键挑战。我们通过数学分析和计算研究来表征受到公平性约束的最优上下文定价策略的结构,并导出了简化的策略,为更深入的研究和扩展打下了基础。此外,我们将研究扩展到具有需求学习的动态定价问题,建立了一个非标准的遗憾下界,突显了公平性约束增加的复杂性。我们的研究提供了公平性成本及其对效用和收入最大化之间平衡的影响的综合分析。本工作是将伦理考虑纳入基于数据驱动的动态定价算法效率的一个步骤。
Nov, 2023
利用基于强化学习的方法,本研究提出了一种动态税收政策,针对经济增长中的平等性和生产力做出有效的权衡,并取得了 16% 的优化效果。
Apr, 2020
通过因果关系的分析,我们探讨了强化学习问题中不公平性产生的根源,并提出一种明确捕捉环境动态引发的不公平性的新概念,以解释、检测和减少强化学习中的不平等。
Apr, 2024
本文研究了个性化定价中公平、福利和公平考虑的相互作用。我们对不同的规范考虑进行了分类,并提出了使用数学定义的不同目标。此外,我们还重点关注不假设价值分布的观测指标。最终,我们在两个案例中通过实证分析展示了个性化定价的潜在好处。
Dec, 2020
本文提出了一种在在线强化学习中形式化长期公平的方法;该方法可以适应不同的控制目标,通过牺牲短期激励来推动分类器 - 人群系统朝着更理想的均衡状态发展,从而在损失和公平违规之间实现同时概率边界的算法。
Apr, 2023
在这篇论文中,我们研究了在顺序决策中存在着动态系统的公平性问题,提出了一个基于马尔可夫决策过程的算法框架,通过预处理和处理中方法集成各种公平性考虑,平衡传统公平性、长期公平性和效用。
Jan, 2024
个性化定价策略探讨了与策略性购买者的上下文动态定价问题,并提出了一个战略动态定价策略,该策略能够最大化卖方的累积收入,并能同时估计估值参数和成本参数,从而达到 O (sqrt (T)) 的遗憾上界。
Jul, 2023
本文提出了两个有声的政策工具,即限制个性化定价的范围或比例,来平衡市场效率和公平性。我们在政策限制下调查了在利润最大化垄断下的最优定价策略,以及实施这些策略对消费者剩余、生产者剩余和社会福利的影响。通过模拟和现实数据集的实验来证明这些理论结果的正确性。这些发现和见解为数字时代日益垄断的企业的监管政策设计提供了启示。
Feb, 2022
该研究提出了一种简单的激励机制公平方案,以改善运用现有 ILP 方案时可能导致的司机和乘客不公平问题,并证明了该方案显著优于其他成功案例,无需重新培训即可实现对最差的个体的度量改善。
Mar, 2023
旨在最大化社会福利,我们研究重复选择政策的问题,由私人效用和公共收入构成的加权和。通过实验证明,我们获得了与误差下界相匹配的上界,表明福利最大化比多臂赌博问题更困难,且我们的算法实现了最佳速率。
Oct, 2023