基于置信上界的关系型赌博机知识注入策略梯度

KDDJun, 2021

基于置信上界的关系型赌博机知识注入策略梯度

Knowledge Infused Policy Gradients with Upper Confidence Bound for Relational Bandits

Kaushik Roy, Qi Zhang, Manas Gaur, Amit Sheth

TL;DR本文提出了一种将知识注入到策略梯度上限边界算法中的上下文策略选择方法，并在音乐推荐数据集和各种现实生活数据集上进行了实验分析，结果表明专家知识能够极大地减少总遗憾。

Abstract

contextual bandits find important use cases in various real-life scenarios such as online advertising, recommendation systems, healthcare, etc. However, most of the algorithms use flat feature vectors to represen

contextual bandits relational context representations exploration-exploitation knowledge infused policy gradients recommendation systems

发现论文，激发创造

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

上下文推荐的政策梯度

本研究提出了基于策略梯度的上下文推荐模型（PGCR），通过利用时间相关贪心和 Actor-Dropout 两种启发式技术解决了现实环境下上下文问题的应用，包括个性化广告等。实验验证了 PGCR 能够快速收敛，低遗憾，并优于经典上下文贝叶斯和原始策略梯度方法。

Feb, 2018

加速上下文强化学习的分层探索

本文提出了一种粗到细的分层方法，通过编码先验知识显著减少了探索用户反馈所需的工作量，其效果得到了广泛模拟和用户研究的证明，适用于个性化新闻推荐。

Jun, 2012

联邦多臂赌博算法的实证评估

在联邦学习中，研究通过用户与感兴趣的应用程序交互产生的隐式信号，而非要求访问难以获取的显式标签的情况下，采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体，并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示，简单且常用的 softmax 启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。

Mar, 2023

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

可预测奖励的情境决策学习

本研究探讨了一种基于可实现性假设下的上下文强化学习问题，并提出了一种新算法 —— 回归器消除，证明了其在保证可实现性前提下，也具有与不可实现性假设情况相似的遗憾率；同时在任意一组策略的情况下，我们证明了本算法具有恒定遗憾，相对于之前的方法而言。

Feb, 2012

具有深度表示和浅层探索的神经背景医师

本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法，可以通过最后一层线性层进行探索以达到最小化后悔的效果，在计算效率方面比现有神经上下文感知强化学习算法更具优势。

Dec, 2020

核化情境赌博机的有限时间分析

本文提出了一种基于 KernelUCB 算法在具有相似性但动作数量巨大的问题中进行在线奖励最大化，适用于重现核希尔伯特空间中的任意线性奖励函数。

Sep, 2013