- 基于延迟反馈的预算推荐
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
- 带有延迟反馈的强化学习优化中的改进后悔度
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
- 延迟随机环境中的控制:基于模型的强化学习方法
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行 - 待定实验的自动驾驶实验室搜索策略
自动化实验室,异步并行化、延迟反馈和贝叶斯优化策略的对比及性能评估。
- 具有延迟反馈的后验抽样用于线性函数逼近的强化学习
使用后验采样算法处理强化学习中的延迟反馈问题,通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现,并在未知随机延迟的情况下具有最坏情况遗憾上界。
- 多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用
对于带有延迟反馈的对抗性多臂赌博问题,我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈,同时提出了一种自适应算法 AMUD-EXP3,这两种算法在实验中被证明是正确且有效的,并给出了关于遗憾的理论分析。
- 一种改进的延迟反馈赌博机算法
通过控制分布漂移和跳过过大延迟的观测,提出了一种新的在可变延迟反馈下进行抽头算法,该算法改进了先前工作并在两个领域提供更紧密的遗憾界限,同时基于未处理观测的计数而不是延迟或最大延迟来估算复杂度。
- 延迟赌博机:何时中间观察有帮助?
研究一种带有延迟反馈和中间观测的多臂老虎机模型,表明状态对损失的映射决定问题的复杂性,给出在不同映射下的后悔率上限,实验验证算法的有效性。
- 具有延迟组合匿名赌徒反馈的随机次模赌徒算法
本文研究了具有随机次模(期望上)奖励和完全 bandit 延迟反馈的组合多臂老虎机问题,其中假定延迟反馈是组合匿名的,同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型,给出了每种延迟模型的后悔界限,忽略问题相关参数,证明所有延迟模 - ICML随机延迟反馈下的贝叶斯优化
本文研究了贝叶斯优化在随机延迟反馈问题上的表现,提出了具有子线性遗憾保证的算法,并在批量 BO 和上下文高斯过程老虎机方面做出了新贡献。作者在合成和真实数据集上进行了实验证明了算法的性能。
- 推荐系统中考虑后点击信息的广义延迟反馈模型
本文介绍了一种利用后点击行为来改善推荐系统的时效性的机器学习方法,提出了一个泛化延迟反馈模型,同时强调在训练过程中利用及时信号和信息质量的平衡来平衡时效性和样本复杂度等问题。在公共数据集上进行的实验验证了该方法的有效性。
- WWW通过标签修正实现延迟反馈建模的渐进无偏估计
提出一种 DEFUSE 方法用于解决在线广告中的延迟反馈问题,并通过双分布建模框架共同建模数据中的无偏直接正例和有偏延迟转化,从而达到更好的转化率预测效果。
- WWW延迟二元反馈的自适应实验
本文介绍了一种适用于满足延迟目标的自适应实验解决方案,通过在 delayed binary feedback objectives 之前估计实际底层目标来动态分配变体,并显示了该方法相较其他方法更为高效,而且在不同环境下很稳健。此外,我们还 - 带有复合匿名反馈的非随机赌博机
研究非随机赌博环境下的遗憾界,提出了基于 FTRL with Tsallis entropy 的算法转化方法。
- ICML带有乐观性和延迟的在线学习
本研究开发了一种乐观的在线学习算法,不需要参数调整,在延迟反馈下具有最佳的后悔保证,支持实时气象预测,同时通过引入乐观提示来减少延迟造成的代价,并应用于气候子季节预测任务中,相对于现有模型具有低后悔。
- KDD真实负样本重要性:使用真实负样本进行延迟反馈模型的连续训练
本文提出了一种 DEFER 方法以解决模型训练中留样问题和转化动作的确定性不足问题。该方法在训练管道中注入真实负样本以确保观察特征分布等于实际分布,并使用重要采样加权损失函数以纠正分布偏移。DEFER 已在阿里巴巴的展示广告系统中实际应用, - AAAI具有延迟反馈的对抗性马尔可夫决策过程学习
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
- 全空间转化率延迟反馈建模预测
本文提出了一个新颖的神经网络框架 ESDF,它从整个空间的角度模型化 CVR 预测,并结合了用户顺序行为模式和时间延迟因素,以同时解决数据稀疏性、样本选择偏差和延迟反馈等三大挑战。经过大量实验,ESDF 已经成为 CVR 预测领域统一解决这 - 对抗性多臂老虎机中的延迟和数据的适应
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 Ada - 具有无限制延迟的非随机多臂赌博机
本文研究带有延迟反馈的多臂老虎机问题,证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现,提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求,同时构造了一种新的加倍方案,从而放宽了对时间和延迟知