该论文研究了在线广告中的自动投标问题,提出了一种基于多智能体强化学习的自动投标框架 MAAB,该框架考虑了竞争和合作关系以及个体收益和社会福利之间的平衡。在大规模广告平台中的实践表明,该方法相对于其他基线方法在社会福利和收益方面都有更优的表现。
Jun, 2021
本文介绍了一种基于多目标贝叶斯优化 (MOBO) 的框架,通过提出 CDF 指标和 BOtied 采集函数,可以有效地解决多目标目标空间的优化问题,并在实验中得到良好的效果。
Jun, 2023
MF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法,通过计算累积偏差达到高概率遗憾边界,从而为单调均场博弈提供了可行的全局收敛的计算算法。
May, 2024
多目标贝叶斯优化通过引入复合扩散模型和信息熵加权方法,在昂贵多目标优化问题中获得高质量解集,并在合成基准和实际问题上展示了卓越性能。
本文介绍了一种基于多臂赌博机的乐观方法,称之为多目标同时乐观优化(MO-SOO)。该算法通过结合多个多臂赌博机在多目标问题的可行决策空间中建立分层结构,以识别帕累托最优解。通过描述该算法的有限时间和渐近行为,分别分析了算法的上界和一致性性质。在 300 个双目标基准问题中,与三个随机算法进行比较,MO-SOO 表现出与顶尖随机算法一致的性能,即 SMS-EMOA 算法。
Dec, 2016
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心 + HL 和 E - 贪心 + EL,以优化探索,并使用计算机模拟研究了各种均衡的出现,并进行了联合累积损失的实证分析。
Jan, 2022
本研究提出了一种混合变量、多目标贝叶斯优化框架 MixMOBO,可高效找到混合变量设计空间的最优帕累托前沿,同时确保多样解,结果表明 MixMOBO 在合成问题上表现良好。
本文研究了跨多任务的在线学习问题,设计了一个统一的元算法,旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证,通过任务平均后悔的降低来提高性能。
May, 2022
在线竞价、拍卖、多槽位广告展示、出价调整以及成本效益性是本研究的主要关键词,通过引入多任务端到端出价调整方法 (MEBS),我们在多槽位广告展示中证明了该方法的理论最优性,并通过离线和在线实验的广泛验证取得了 7.01% 的总商品交易额提升、7.42% 的投资回报率提升和 3.26% 的广告采购计数提升。
Mar, 2024
该论文研究了具有 bandit feedback 的在线元学习,目的是通过某种自然的相似性度量改善类似的多个任务的性能。
Jul, 2023