关键词linear contextual bandits
搜索结果 - 6
- ICML具有用户级差分隐私的联邦线性情境赌博机
本文研究联邦线性情境强化学习在用户级差分隐私下的模型,介绍了用户级中心差分隐私和本地差分隐私,并研究了学习遗憾与相应差分隐私保证之间的基本权衡。对于中心差分隐私,提出了一种联邦算法 Robin,并在满足用户级差分隐私的情况下证明了其近乎最优 - 联邦线性情境赌博机
本文提出了一种新型的联邦线性情境赌博机模型 Fed-PE,并采用协作算法来处理客户端的异质性,它基于新颖的多客户 G - 最优设计,并通过对不相交和共享参数情况下的对数通信成本,实现了几乎最优的遗憾。此外,本文还引入了一种新的概念 —— 共 - 具有有限适应性和学习分布最优设计的线性赌臂机
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要 O(log log T)批次进行学习,但在策略转换限制下需 O(dlogdlogT)次策略转换才能达到最优遗憾。
- 有限动作线性背景下的顺序批次学习
我们研究了线性环境中上下文臂中的顺序批处理学习问题,其中决策者被限制将个体分成(至多)固定数量的批处理,并且只能在批处理结束时观察批处理内的个体的结果。我们研究了问题的两种设置:一种是上下文是任意生成的,另一种是上下文是从某个分布中 iid - 上下文臂选择模型
介绍了在上下文密集应用中的模型选择问题及其解决方案,该方案适用于线性上下文密集应用,并在先验知识下达到了较低的后验概率。
- 未知公平性度量的在线学习
该研究旨在解决在线学习在线性情境赌博机中存在强烈的个体公平约束的问题,其中个体公平性受未知相似性度量的支配,主要考虑通过算法减小公平性侵犯并达到最佳回报。