本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
研究在线学习问题中的反馈问题,证明反馈图的结构控制引起的学习难度,并给出了三个类别的反馈图的理论极限表现和影响。
Feb, 2015
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非常复杂的问题,因为策略依赖于嘈杂的上下文观察。
Jul, 2023
我们研究了具有图反馈的背景下的情景赌博问题,发现了相关概念与学习限制的关系,并提供了优化算法,以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。
Feb, 2024
该研究提出了一种基于随机上下文赌博问题的在线图预测的广义方法,将顶点上的未知标签与奖励分布相结合,提出了基于线性图和树的算法,有效地解决了图标签预测中的实例困难问题,并提出了一种计算简单,易于分析的算法框架来处理更一般的图。
May, 2023
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本文研究了在线学习中使用图形反馈的问题,提出了一种新的权衡机制,能够同时在随机环境和对抗环境取得最优结果,具有很好的推广性。
Jun, 2022
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018