本文提供了一张结构化的 Bandit 算法映射图,帮助实践者通过有关奖励、行动和特征的关键决策点寻找相关实用的 Bandit 算法。
Jul, 2021
在复杂拍卖场景中,我们提出了一种在线学习方法,通过利用投标方的效用结构和部分反馈,为拍卖算法提供对最佳固定竞标的遗憾率,这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛,同时又几乎等同于在完全信息环境下所实现的收敛,这些结果是通过分析这一新的基于反馈的在线学习方法实现的。
Nov, 2017
介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
Jan, 2014
本文主要探讨了实时竞价广告中的投标策略优化问题及挑战,介绍了几种代表性的投标策略,重点讨论了基于强化学习的投标策略的研究进展和挑战,通过定量评估 iPinYou 数据集上几种代表性的投标策略的性能,总结了使用强化学习算法优化投标策略的一般步骤,并提出了建议。
Nov, 2022
本文针对互联网广告动态分配中的预算限制,运用多臂老虎机算法进行研究,提出具有强可证性、适应性强的 UCB1 算法改进方案。
Jun, 2013
本文提出了一种在线学习框架,利用多维度的决策变量、赌博反馈和长期不确定性约束,帮助广告客户在非平稳采购结果的真实赌博反馈环境中动态优化广告平台的杠杆决策,取得低损失结果。
Jul, 2023
通过采用基于赌博机的学习技术来自动选择搜索启发式方法,我们的方法在线学习和选择一组搜索启发式方法,旨在获得具有健壮性和比原先性能更好的自适应搜索启发式方法。初步实验表明,自适应技术比原始搜索启发式方法更为健壮且性能更好。
May, 2018
本文探讨了在电子商务平台中将战略优化方法引入搜索广告领域,重点关注广告排名和竞价机制。通过结合强化学习和进化策略,我们提出了一个动态模型,能够根据用户交互的变化优化广告成本、用户相关性和平台收益的平衡。我们的研究结果表明,在广告投放准确性和成本效率方面取得了显著的改进,证明了该模型在实际场景中的适用性。
May, 2024
现代商业互联网搜索引擎通过拍卖方式在搜索结果旁边展示广告,这种发起出价的赞助搜索依靠市场机制,我们总结了当前拍卖系统的情况,描述了博弈论方面的基本原理,该博弈涉及到三方,分别是广告主、搜索引擎和搜索用户,介绍了强调每方角色的研究方向,并使用机制设计、优化和统计估计的技术来制定竞标和定价算法最后提出了赞助搜索广告中的一些挑战。
May, 2008
本研究建立了一个通用的优化框架,用于设计动态在线市场中的自动竞价代理,该框架仅优化买家的利益,并对卖家施加的拍卖机制无动于衷,因此可以跨多个平台联合优化一组广告,并自动保证预算分配和出价策略的最优性。
Feb, 2022