理解经验回放中的算法勾结

MMFeb, 2021

Understanding algorithmic collusion with experience replay

Bingyan Han

TL;DR本研究探索人工智能定价算法在重复博弈中的表现，发现算法协作在人类行为偏好的影响下较为普遍，同时发现体验随机化、相对绩效影响和最新经验偏好都能增强算法协作，最后检测了不同因素下异质代理的表现和鲁棒性。

Abstract

In an infinitely repeated pricing game, pricing algorithms based on artificial intelligence (q-learning) may consistently learn to charge

pricing game artificial intelligence q-learning algorithmic collusion experience replay

发现论文，激发创造

人工智能和算法定价在双边市场中的勾结

使用人工智能（AI）算法进行的算法性价格勾结引发了重大关切。我们研究了 AI 代理使用 Q-learning 在双边市场中如何进行默契勾结。我们的实验发现，与洛兰竞争相比，基于 AI 的平台实现了更高的勾结水平。增强网络外部性显著增强了勾结水平，这表明 AI 算法利用它们来最大化利润。用户异质性增加或外部选择带来的效用增加通常会减少勾结水平，而较高的贴现率会增加勾结。即使在低贴现率下，默契勾结仍然可行。为了减少勾结行为并提供潜在的监管措施，我们建议在 Q-learning 算法中加入惩罚项。

Jul, 2024

公平与不公平：用深度强化学习量化市场模拟中的勾结

电子商务中基于人工智能的定价算法，特别是利用强化学习的算法，正变得越来越普遍。这项研究通过实验性寡头垄断模型的多次价格竞争，系统地改变环境以涵盖从基础经济理论到主观消费者需求偏好的各种情况，探究了代理人开发的策略和新兴定价模式，可能导致共谋结果。此外，我们还调查了代理无法观察到竞争对手价格的情景，并对所有情景进行了综合法律分析。我们的研究发现，基于强化学习的人工智能代理会趋于一种共谋的状态，其特点是收取超竞争价格，而无需进行代理间通信。实施其他强化学习算法，改变代理数量或模拟设置，以及限制代理的观察范围不会显著影响共谋市场的结果行为。

Jun, 2024

经济平台上 AI 勾结的缓解学习

本文探讨算法定价在电子商务平台上产生的隐性勾结问题，并介绍了设计 ' 购买框 ' 规则来预防勾结定价的方法，同时提出了利用强化学习算法学习有效购买框规则的方法，并通过 Stackelberg POMDPs 方法，成功地制定出在不同销售行为模式和商品成本分布的情况下仍能提供高消费者福利的稳健规则。

Feb, 2022

自适应算法和耦合协作

该研究基于连续时间技术提出了一个理论模型，旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制，该研究证明了人工智能算法之间存在的勾结现象，并提出了一种足以消除算法间自发耦合的充分条件，以及设计学习鲁棒性策略的机制所必要的回馈机制。

Feb, 2022

大型语言模型的算法勾结

通过对大型语言模型（LLMs）以及具体的 GPT-4 算法进行定价任务实验，我们发现 LLM 算法定价代理在垄断市场中自主勾结，对消费者造成不利影响，并且 LLM 指令中表面无关短语的变化可能增加勾结行为，这些结果同样适用于拍卖设置，凸显了需要针对算法定价实施反垄断法规的必要性，揭示了基于 LLM 的定价代理面临的独特监管挑战。

Mar, 2024

算法勾结还是竞争：平台推荐系统的作用

最近的学术研究广泛关注了由人工智能（AI）动态定价算法引发的算法勾结问题。然而，电子商务平台采用推荐算法来分配对不同产品的曝光，并且这个重要方面在以前的算法勾结研究中被大大忽视了。我们的研究弥补了文献中的这个重要空白，并且检查了推荐算法如何决定基于 AI 的定价算法的竞争或勾结动态。具体地，我们研究了两个常见的推荐算法：（i）一个旨在最大化卖家总利润的推荐系统（以利润为基础的推荐系统）和（ii）一个旨在最大化平台上销售产品的需求的推荐系统（以需求为基础的推荐系统）。我们构建了一个重复博弈框架，将卖家采用的定价算法和平台的推荐系统结合起来。随后，我们进行实验观察价格动态并确定最终的均衡。实验结果表明，基于利润的推荐系统增强了卖家之间的算法勾结，因为它与卖家的利润最大化目标相一致。相反，基于需求的推荐系统促进了卖家之间的价格竞争，并导致较低的价格，因为它与卖家的目标不一致。进一步的分析表明我们的发现在各种市场环境中的稳健性。总的来说，我们强调了平台推荐系统在定义数字市场竞争结构方面的重要性，为市场参与者和相关政策制定者提供了重要的见解。

Sep, 2023

人工智能与拍卖设计

本文探究了重复拍卖中的拍卖设计，其中通过简单人工智能算法 (Q-learning) 进行拍卖。我们发现，在没有额外反馈的情况下，第一价格拍卖会导致默认勾结结果（竞投低于价值），而第二价格拍卖则不会。我们展示了这种差异是由第一价格拍卖中超越竞争者一个出价单位的刺激所驱动的。这在经过试验阶段之后便有助于实现对低竞标的重新协调。同时，我们还发现，谷歌在转向第一价格拍卖时引入的有关获胜的最低竞标的信息提供，增加了拍卖的竞争度。

Feb, 2022

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

对抗无悔玩家

研究使用无遗憾算法在正态形式重复的 N 人博弈中，如何让人类玩家获得最大化效用，引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念，证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。

Feb, 2022