MESOB：平衡均衡与社交最优性

Jul, 2023

MESOB: Balancing Equilibria & Social Optimality

Xin Guo, Lihong Li, Sareh Nabi, Rabih Salhab, Junzi Zhang

TL;DR本研究利用 MESOB-OMO 方法解决了广告拍卖中竞争与合作的双重目标问题，实现了拍卖双方利益的平衡，并且相较于其它算法具有优势。

Abstract

Motivated by bid recommendation in online ad auctions, this paper considers a general class of multi-level and multi-agent games, with two major characteristics: one is a large number of anonymous agents, and the

bid recommendation multi-level games multi-agent games mean-field approximation pareto efficient solutions

发现论文，激发创造

在线广告自动竞价的合作竞争多智能体框架

该论文研究了在线广告中的自动投标问题，提出了一种基于多智能体强化学习的自动投标框架 MAAB，该框架考虑了竞争和合作关系以及个体收益和社会福利之间的平衡。在大规模广告平台中的实践表明，该方法相对于其他基线方法在社会福利和收益方面都有更优的表现。

Jun, 2021

BOtied: 带绑定多元等级的多目标贝叶斯优化

本文介绍了一种基于多目标贝叶斯优化 (MOBO) 的框架，通过提出 CDF 指标和 BOtied 采集函数，可以有效地解决多目标目标空间的优化问题，并在实验中得到良好的效果。

Jun, 2023

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

May, 2024

基于扩散模型的昂贵多目标贝叶斯优化

多目标贝叶斯优化通过引入复合扩散模型和信息熵加权方法，在昂贵多目标优化问题中获得高质量解集，并在合成基准和实际问题上展示了卓越性能。

May, 2024

多目标同时乐观优化

本文介绍了一种基于多臂赌博机的乐观方法，称之为多目标同时乐观优化（MO-SOO）。该算法通过结合多个多臂赌博机在多目标问题的可行决策空间中建立分层结构，以识别帕累托最优解。通过描述该算法的有限时间和渐近行为，分别分析了算法的上界和一致性性质。在 300 个双目标基准问题中，与三个随机算法进行比较，MO-SOO 表现出与顶尖随机算法一致的性能，即 SMS-EMOA 算法。

Dec, 2016

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

基于贝叶斯优化的多目标混合变量问题

本研究提出了一种混合变量、多目标贝叶斯优化框架 MixMOBO，可高效找到混合变量设计空间的最优帕累托前沿，同时确保多样解，结果表明 MixMOBO 在合成问题上表现良好。

Jan, 2022

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

MEBS: 多任务多槽位展示广告的端到端出价优化

在线竞价、拍卖、多槽位广告展示、出价调整以及成本效益性是本研究的主要关键词，通过引入多任务端到端出价调整方法 (MEBS)，我们在多槽位广告展示中证明了该方法的理论最优性，并通过离线和在线实验的广泛验证取得了 7.01% 的总商品交易额提升、7.42% 的投资回报率提升和 3.26% 的广告采购计数提升。

Mar, 2024

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023