经济平台上 AI 勾结的缓解学习

Feb, 2022

Learning to Mitigate AI Collusion on Economic Platforms

Gianluca Brero, Nicolas Lepore, Eric Mibuari, David C. Parkes

TL;DR本文探讨算法定价在电子商务平台上产生的隐性勾结问题，并介绍了设计 ' 购买框 ' 规则来预防勾结定价的方法，同时提出了利用强化学习算法学习有效购买框规则的方法，并通过 Stackelberg POMDPs 方法，成功地制定出在不同销售行为模式和商品成本分布的情况下仍能提供高消费者福利的稳健规则。

Abstract

algorithmic pricing on online e-commerce platforms raises the concern of tacit collusion, where reinforcement learning algorithms learn to

algorithmic pricing tacit collusion reinforcement learning buy boxes consumer welfare

发现论文，激发创造

人工智能和算法定价在双边市场中的勾结

使用人工智能（AI）算法进行的算法性价格勾结引发了重大关切。我们研究了 AI 代理使用 Q-learning 在双边市场中如何进行默契勾结。我们的实验发现，与洛兰竞争相比，基于 AI 的平台实现了更高的勾结水平。增强网络外部性显著增强了勾结水平，这表明 AI 算法利用它们来最大化利润。用户异质性增加或外部选择带来的效用增加通常会减少勾结水平，而较高的贴现率会增加勾结。即使在低贴现率下，默契勾结仍然可行。为了减少勾结行为并提供潜在的监管措施，我们建议在 Q-learning 算法中加入惩罚项。

Jul, 2024

公平与不公平：用深度强化学习量化市场模拟中的勾结

电子商务中基于人工智能的定价算法，特别是利用强化学习的算法，正变得越来越普遍。这项研究通过实验性寡头垄断模型的多次价格竞争，系统地改变环境以涵盖从基础经济理论到主观消费者需求偏好的各种情况，探究了代理人开发的策略和新兴定价模式，可能导致共谋结果。此外，我们还调查了代理无法观察到竞争对手价格的情景，并对所有情景进行了综合法律分析。我们的研究发现，基于强化学习的人工智能代理会趋于一种共谋的状态，其特点是收取超竞争价格，而无需进行代理间通信。实施其他强化学习算法，改变代理数量或模拟设置，以及限制代理的观察范围不会显著影响共谋市场的结果行为。

Jun, 2024

算法勾结还是竞争：平台推荐系统的作用

最近的学术研究广泛关注了由人工智能（AI）动态定价算法引发的算法勾结问题。然而，电子商务平台采用推荐算法来分配对不同产品的曝光，并且这个重要方面在以前的算法勾结研究中被大大忽视了。我们的研究弥补了文献中的这个重要空白，并且检查了推荐算法如何决定基于 AI 的定价算法的竞争或勾结动态。具体地，我们研究了两个常见的推荐算法：（i）一个旨在最大化卖家总利润的推荐系统（以利润为基础的推荐系统）和（ii）一个旨在最大化平台上销售产品的需求的推荐系统（以需求为基础的推荐系统）。我们构建了一个重复博弈框架，将卖家采用的定价算法和平台的推荐系统结合起来。随后，我们进行实验观察价格动态并确定最终的均衡。实验结果表明，基于利润的推荐系统增强了卖家之间的算法勾结，因为它与卖家的利润最大化目标相一致。相反，基于需求的推荐系统促进了卖家之间的价格竞争，并导致较低的价格，因为它与卖家的目标不一致。进一步的分析表明我们的发现在各种市场环境中的稳健性。总的来说，我们强调了平台推荐系统在定义数字市场竞争结构方面的重要性，为市场参与者和相关政策制定者提供了重要的见解。

Sep, 2023

理解经验回放中的算法勾结

本研究探索人工智能定价算法在重复博弈中的表现，发现算法协作在人类行为偏好的影响下较为普遍，同时发现体验随机化、相对绩效影响和最新经验偏好都能增强算法协作，最后检测了不同因素下异质代理的表现和鲁棒性。

Feb, 2021

大型语言模型的算法勾结

通过对大型语言模型（LLMs）以及具体的 GPT-4 算法进行定价任务实验，我们发现 LLM 算法定价代理在垄断市场中自主勾结，对消费者造成不利影响，并且 LLM 指令中表面无关短语的变化可能增加勾结行为，这些结果同样适用于拍卖设置，凸显了需要针对算法定价实施反垄断法规的必要性，揭示了基于 LLM 的定价代理面临的独特监管挑战。

Mar, 2024

通过强化学习在价格比较网站上进行的保险定价

利用强化学习及离线数据集，本文提出了一种能应对保险公司在价格比较网站中面临的挑战的优化定价策略，该策略通过整合基于模型的和无模型方法来学习最优定价政策，并在动态市场中实时更新以最大化预期收益。研究结果验证了该方法在离线数据集上的有效性和卓越性能。

Aug, 2023

自适应算法和耦合协作

该研究基于连续时间技术提出了一个理论模型，旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制，该研究证明了人工智能算法之间存在的勾结现象，并提出了一种足以消除算法间自发耦合的充分条件，以及设计学习鲁棒性策略的机制所必要的回馈机制。

Feb, 2022

智能代理和机制学习算法

论文研究强化学习及拍卖设计的优化决策算法，包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。

Oct, 2022

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024