Oct, 2023
上下文环境中的二价点击计费竞拍在线学习
Online Learning in Contextual Second-Price Pay-Per-Click Auctions
Mengxiao Zhang, Haipeng Luo
TL;DR研究在线学习在上下文广告竞拍中的应用,通过算法获得最小化收入损失的目标,针对点击率进行估计,提出了两种有效的上下文拍卖算法,并通过实验验证了其有效性和超凡性能。
Abstract
We study online learning in contextual pay-per-click auctions where at each
of the $T$ rounds, the learner receives some context along with a set of ads
and needs to make an estimate on their →
online learningcontextual pay-per-click auctionsclick-through rateregretcontextual bandit algorithms
发现论文,激发创造
动态激励感知学习:上下文拍卖中的鲁棒性定价
本文提出了一种学习策略,通过观察过去的销售数据来设定保留价格,以最小化对收入的后悔,同时本文也探讨了市场噪声分布已知和未知情况下的学习政策和保留价格的设计。
Feb, 2020
上下文臂针对高效优化学习
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
对抗语境强化学习的核化方法
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Oct, 2023
不知道自己价值的情况下学习投标
在复杂拍卖场景中,我们提出了一种在线学习方法,通过利用投标方的效用结构和部分反馈,为拍卖算法提供对最佳固定竞标的遗憾率,这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛,同时又几乎等同于在完全信息环境下所实现的收敛,这些结果是通过分析这一新的基于反馈的在线学习方法实现的。
Nov, 2017
基于 oracle 的对抗性情境赌博算法的改进遗憾界
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016