公平的在线双边交易

May, 2024

Fair Online Bilateral Trade

François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni

TL;DR在线双边贸易中，平台通过向具有私人估值的买家和卖家对发布价格来进行交易。该研究通过引入公平性来解决不平等的问题，并提出了对公平利益进行后悔边界的全面刻画。

Abstract

In online bilateral trade, a platform posts prices to incoming pairs of buyers and sellers that have private valuations for a certain good. If the price is lower than the buyers' valuation and higher than the sel

online bilateral trade platform fairness no-regret learning algorithm regret bounds

发现论文，激发创造

在线学习中的交易量最大化

通过在在线学习框架中的交易者之间进行经纪，我们研究了经纪的关键问题。我们探索了经纪机构如何最大限度地提高交易量，并分析了对于交易者来说最优的交易策略和遗憾率。

May, 2024

全局预算平衡下的双边贸易中无懊悔学习

在线版本的双边贸易问题中，引入全局预算平衡的概念，为对抗性输入提供了首个无悔算法，其中包括全反馈模型和部分反馈模型下的回报衡量标准。

Oct, 2023

经纪人的在线学习理论

在线学习视角下研究交易者间的经纪服务，在不同情况下，通过算法实现不同的后悔率和界定密度。

Oct, 2023

学习如何在小型市场中最大化贸易利益

设计一个双边市场（双向拍卖）以在给定约束条件下（优势策略）实现最大化交易利益（社会福利），并在未知分布中使用多项式数量的样本进行研究。我们的首要结果是，在即使只有一个卖方和两个买方之间的相关价值分布的情况下，与一个卖方和一个买方（双边交易）的情况不同，这是不可能的。我们的第二个结果是，在独立分布的情况下，对于一个卖方和两个买方，我们提出了一种基于一种新算法的高效学习算法，用于计算有限支持和明确给定的独立分布的最优机制。这两个结果都严重依赖于（优势策略）激励兼容机制的特征，这些机制在经济上是强平衡的。

Jan, 2024

在线市场中卖家方案公平性

检测和实现在线市场中卖方公平性，通过引入卖方结果公平性概念和构建以平衡推荐奖励和公平度度量为目标的优化模型，然后提出基于数据驱动的梯度下降算法，通过对真实电子商务数据集进行数值实验，发现该算法能提升卖方公平性而不损害总采购额和总购买次数等指标。

Dec, 2023

对首价拍卖中的无懊悔学习者进行策略规划

我们研究了重复的一阶售价拍卖和一般重复贝叶斯博弈的情况，在这种情况下，一个参与者（学习者）采用了一个无悔学习算法，而另一个参与者（优化者）在了解学习者的算法的情况下，策略化地追求自己的效用最大化。对于一类被称为基于均值的无悔学习算法，我们证明：（i）在标准（即完全信息）的一阶售价拍卖中，优化者不能获得超过 Stackelberg 效用的效用 -- 这是文献中的标准基准，但是（ii）在贝叶斯一阶售价拍卖中，存在优化者可以获得远高于 Stackelberg 效用的实例。另一方面，Mansour 等人（2022）证明了一类更复杂的算法，称为无多面体交换后悔算法可以将优化者的效用限制在任意重复贝叶斯博弈（包括贝叶斯一阶售价拍卖）的 Stackelberg 效用上，并提出是否有必要使用无多面体交换后悔算法来限制优化者的效用。对于一般的贝叶斯博弈，在一个合理且必要的条件下，我们证明了无多面体交换后悔算法确实是将优化者的效用限制在 Stackelberg 效用上的必要条件，从而回答了他们的开放性问题。对于贝叶斯一阶售价拍卖，我们通过利用贝叶斯一阶售价拍卖的结构给出了一个简单的改进标准算法来最小化多面体交换后悔。

Feb, 2024

游戏学习对学习者是否有益？

研究了两个智能体在重复对局中报酬和悔恨之间的权衡，提出了一种广义均衡概念，讨论了不同对手情况下的最优战略和可行方案，探究了利用这种广义均衡学习最优策略的方法。

May, 2023

具有预算和 ROI 约束的非真实拍卖的无悔算法

自动投标算法是广告主在在线广告平台上优化广告活动的方式之一，本研究通过设计在线自动投标算法来实现广告主在预算和投资回报率限制下的价值最大化，研究还包括竞标优化、价值分布和成交价相关性等方面。

Apr, 2024

在在线分配中平衡价格与数据质量以实现公平

本文探讨了在不观察个体保护属性的情况下，使用不同质量的数据源估算这些属性以降低公平惩罚的在线分配问题，并提出了一种在多臂赌博问题的框架下同时解决两个问题的算法，该算法可以适应多种不同的公平概念，并且在一些情况下可以学习使用的估计值。

Jun, 2023

从强盗反馈中学习公平分配

通过使用双平均法，本研究解决了在不确定条件下学习在线公平分配的问题，其中中央规划者在不准确地了解代理方值或效用的情况下顺序分配物品。本研究提出了利用双平均法的包装算法，通过信息反馈逐步学习到到达物品的类型分布和代理方的值，从而实现了在线算法在具有加性效用的线性 Fisher 市场中渐进地达到最优的 Nash 社会福利。我们在 Nash 社会福利方面建立了遗憾界限，并通过合成和实证数据集实证验证了我们提出的算法的优越性能。

Nov, 2023