上下文环境中的二价点击计费竞拍在线学习

Oct, 2023

上下文环境中的二价点击计费竞拍在线学习

Online Learning in Contextual Second-Price Pay-Per-Click Auctions

Mengxiao Zhang, Haipeng Luo

TL;DR研究在线学习在上下文广告竞拍中的应用，通过算法获得最小化收入损失的目标，针对点击率进行估计，提出了两种有效的上下文拍卖算法，并通过实验验证了其有效性和超凡性能。

Abstract

We study online learning in contextual pay-per-click auctions where at each of the $T$ rounds, the learner receives some context along with a set of ads and needs to make an estimate on their →

online learning contextual pay-per-click auctions click-through rate regret contextual bandit algorithms

发现论文，激发创造

广告竞拍中点击率预测的改进在线学习算法

我们研究了在线学习问题中的广告拍卖收入最大化问题，重点关注广告主的战略行为、点击率和动态估值对机制表现的影响。

Feb, 2024

动态激励感知学习：上下文拍卖中的鲁棒性定价

本文提出了一种学习策略，通过观察过去的销售数据来设定保留价格，以最小化对收入的后悔，同时本文也探讨了市场噪声分布已知和未知情况下的学习政策和保留价格的设计。

Feb, 2020

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

使用交叉学习的上下文策略带

本研究提出了一种解决上下文相关性及跨上下文学习问题的算法，可在拍卖等有战略设置中实现更高性能的结果。

Sep, 2018

对抗环境学习的高效算法

该论文提出了用于对抗环境下上下文相关强化学习问题的第一种 Oracle 有效的亚线性后悔算法，分析了两个场景，其中一个是传递式场景，另一个是小分离器设置

Feb, 2016

对抗语境强化学习的核化方法

通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中，我们提出了一种计算有效的算法，该算法利用一种新的对损失函数进行乐观偏差估计的方法，在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。

Oct, 2023

不知道自己价值的情况下学习投标

在复杂拍卖场景中，我们提出了一种在线学习方法，通过利用投标方的效用结构和部分反馈，为拍卖算法提供对最佳固定竞标的遗憾率，这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛，同时又几乎等同于在完全信息环境下所实现的收敛，这些结果是通过分析这一新的基于反馈的在线学习方法实现的。

Nov, 2017

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。

Apr, 2024

改进的上下文动态定价算法

在此研究中，我们探讨了上下文动态定价的关键问题，提出了两种估值模型，并针对线性性假设和期望买家估值问题分别设计了算法，以实现较低的后悔率。

Jun, 2024

基于 oracle 的对抗性情境赌博算法的改进遗憾界

提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题，该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的，其中 K 是操作的数量，T 是迭代次数，N 是基线策略的数量。

Jun, 2016