- 平滑在线学习的简易性与统计学习相当
本论文研究了在线设置下学习过程中涉及到的平滑度、最小极大后悔以及上下文干涉等问题,并提出了对应算法的解决方案。
- ICML随机赌博机中曝光的公平性
为了解决个性化推荐中传统策略可能导致的不公平现象,提出了一种新的基于功绩公平的策略,并给出了两种算法,分别适用于多臂老虎机和线性老虎机,证明了算法的功绩公平和奖励公平具有亚线性,同时提供了实证分析,证明了该算法能够有效地公平分配推荐曝光。
- 上下文匹配赌博机环境下的在线决策统计推断
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
- 深度贝叶斯多臂赌博机:在线个性化推荐中的探索
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
- 通过自标准化的重要性权重实现自信的离线评估和选择
该研究考虑在上下文匹配机器学习算法的偏离策略评估中,提出了一种新的方法 —— 基于自归一化重要性权重估算目标策略的价值下界,并在合成和实际数据集上测试表明该方法可获得更优越的策略,包括更紧密的置信区间和选择的质量。
- MiniVox 中作为全在线学习问题的说话人分离
本研究提出了一种新型的机器学习框架,可以在完全在线学习的情况下实现实时的多说话者辨识和识别,同时通过半监督和自监督学习方法解决了在线学习中出现的奖励呈现问题,并提供了一个可以交互处理冷启动问题的可行的基于网络的识别系统。
- 广义线性赌臂问题的高效算法:在线随机梯度下降和汤普森抽样
本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法,其总时间复杂度为 T 和 d 的线性比例,其中 - WWW基于资源限制的分层自适应上下文强化学习推荐算法
本文提出了一种分层自适应上下文匹配方法(HATCH),以在有预算限制的情况下学习上下文匹配策略,并利用上下文特征信息找到最佳的个性化推荐,实验结果证明了该方法的有效性和效率。
- 绕开怪物:一种更快、更简单的实现环境下上下文二项式算法
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有 $T$ 回合中通过对离线回归神谕的 $logT$ 次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下 - 情境随机赌博问题中的模型选择
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。
- AAAI基于上下文多臂赌博机的时变用户兴趣个性化推荐
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置 - AAAI分层边缘计算中的物联网数据自适应异常检测
提出了一种基于层级边缘计算系统的自适应异常检测方法,使用三个不同复杂度的 DNN 模型分别对物联网设备、边缘服务器和云进行检测,并设计了一种基于上下文信息提取的自适应方案,以同时实现高检测准确性和低检测延迟。实验结果表明与数据离线到云端处理 - $\sqrt {n}$-Regret 算法在带有函数逼近和低 Bellman 等级的马尔可夫决策过程学习中的应用
本文提出了一种在线学习算法,即 Adaptive Value-function Elimination(AVE),用于大规模状态空间下的 Markov 决策过程(MDPs),形式化了 OLIVE 中的淘汰步骤为上下文乐队问题,从而在学习过程 - 平滑上下文强化学习:连接参数化和不可微性遗憾模式
该研究讨论了非参数上下文赌博问题,研究了函数的 Hölder 类和光滑度参数 β 之间的插值关系,提出了一种新算法,能够调整到各种光滑度设置,并通过确立匹配的上下限证明其遗憾是速率最优的,从而弥合了现有文献关于参数和非可区分性情境赌徒问题, - 通过贝叶斯赌博算法在线评估定向广告受众
该论文介绍了一种在分割目标受众群体并在线实验中解决数字广告匹配问题的上下文强化学习算法,并在中国电商平台 JD.com 上实现
- WWW对话式上下文强化学习算法及其应用
将上下文策略(Contextual bandit)算法推广到对话情境的策略推荐 (Conversational contextual bandit),通过针对关键术语(key-terms)的交流反馈来加速策略学习,设计 Conversati - 一种新的非平稳情境赌博算法:高效、最优和免参数
提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法,通过引入回放阶段来保持对非平稳的探索,并在探索和开发之间保持良好的平衡。
- 将行为约束纳入在线 AI 系统
通过行为约束的观察来学习一组行为约束的新型在线代理,称为 Behavior Constrained Thompson Sampling(BCTS)。我们提供了一个新算法,允许在遵守外生约束条件的情况下进行在线学习。我们的实验表明,这种代理能 - SIGIR非静态环境下学习上下文臂
本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
- 连续处理的政策评估与优化
扩展了离散治疗的反倾斜权重和双重稳健方法,使用了一个利用治疗接近程度的核函数来衰减拒绝采样,缓解了样本拒绝问题,可应用于持续的治疗问题,通过个性化给药数据集的案例研究,得到了比基准更好的策略推荐结果。