- 概率方法在具有预算约束的黑盒二进制优化中的应用:传感器布置
我们提出了一种完全概率化的方法,用于解决具有黑盒目标函数和预算约束的二值优化问题。
- 具有预算和 ROI 约束的非真实拍卖的无悔算法
自动投标算法是广告主在在线广告平台上优化广告活动的方式之一,本研究通过设计在线自动投标算法来实现广告主在预算和投资回报率限制下的价值最大化,研究还包括竞标优化、价值分布和成交价相关性等方面。
- AAAI马尔科夫决策过程中的委托 - 代理奖励塑造
两个参与方之间的代理问题会给利益产生冲突。本文探讨了奖励设计在预算限制下如何提高委托方效用,研究了一个两人博弈模型中的马尔科夫决策过程,结果表明该问题的求解是 NP 难的,但我们提供了针对随机树和具有有限时间跨度的确定性决策过程的多项式逼近 - 基于每个项目预算约束的在线协同过滤:阻塞协同强盗
设计了一个叫做 B-LATTICE(通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制)的算法,通过满足预算限制并在用户之间进行协作,以最大化他们的累积奖励。在理论上,满足合理的潜在结构假设,对于具有 M 个用户,N 个臂,每个用户 T 轮和 - 多平台广告市场中使用非 IC 拍卖的预算管理
本文提出了一种针对在线广告买卖市场的方法,以最大化广告主的总实用效益且满足预算限制,解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题,并对在线出价的情况进行了调查,算法在完全信息情况下的拍卖后悔为 $O (T^{3/4 - 如何选择最适合您特定问题和预算的主动学习策略
提出了一种基于导数的方法来动态识别最适合每个预算的主动学习策略,并在各种预算和计算机视觉任务中展示其有效性。
- SIGIRBCRLSP:一种用于序列目标推广的离线强化学习框架
该研究使用离线强化学习模型,针对真实商业环境中的预算限制进行有序定向促销,最大化用户保留率并控制现金奖励成本,在线离线实验验证表明,该方法在长期保留客户方面比基线方法表现更好、成本更低。
- 不确定环境下赞助搜索广告中的最优关键词分组
本文提出了一种基于随机规划模型的关键词分组方法,考虑了点击率和转化率等随机变量,同时纳入预算约束和风险承受能力,使用分支界定算法解决该模型,实验证明该方法在实际的搜索广告活动中表现出色,并揭示了有关关键词分组决策的重要洞察。
- 基于约束的强化学习的简单无回报方法
本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记 MDP 设置中,我们提出了一种简单的元算法,利用现有的奖励自由 RL 解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接 - 基于 Wasserstein 的非平稳在线随机优化
本文考虑多重预算约束下的在线随机优化问题,提出了基于 Wasserstein 距离的度量方法来量化先验假设准确性和系统的非平稳性,针对信息已知和信息未知情况下分别提出了算法,均取得了优越的性能表现。
- 通过结构对照推断实现费用效益的激励分配
针对现代市场营销中的一个实际问题,我们提出了一种新的方法来解决策略优化问题,并构建了一种带约束的反事实策略优化模型。我们将奖励估计问题作为带有附加结构的域适应问题,并使用估计器进行带约束优化策略。我们证明了我们的估计程序具有理论误差界,并且 - 利用服务器日志改进网站超链接结构
本研究使用服务器日志构建模型自动发现有用的超链接并提出了一种有效算法以在预算约束下实现链接放置,该方法可以应用于任何网站,并在维基百科和生物医学研究网站 Simtk 上进行了验证。
- 线性上下文多臂赌博机和背包问题
本文研究了带有资源消耗的线性情境赌博机问题,算法具有近乎最优的遗憾界,并将技术从 Solution 综述中的线性情境赌博机,背包赌博机和在线随机填充问题中结合使用。
- NIPS具有对数或次线性遗憾的约束上下文臂机算法
本文对具有预算和时间限制的约束情境赌博问题展开了研究,提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。
- 带预算的贝叶斯多臂赌博算法在动态广告分配中的应用
本文针对互联网广告动态分配中的预算限制,运用多臂老虎机算法进行研究,提出具有强可证性、适应性强的 UCB1 算法改进方案。