本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
本文提出了一种新的分布式在线学习框架,将学习者建模为合作的情境赌博机,分析了分布式在线学习算法和完全知识基准的效率,研究表明后者在时间上失误是亚线性的,该理论框架可用于许多实际应用中,包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。
Aug, 2013
提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法,其不仅可以抵御回报攻击,还可以抵御袭击环境,提高了对各种流行攻击的稳健性。
Jun, 2021
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
Oct, 2020
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
提出了一种简单的上下文 Bandit 算法族,该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差,而不需要像在线或约束回归神谕一样更健壮的神谕。
Feb, 2021
该论文研究了半参数上下文赌博机问题,设计了新的算法来解决非线性混淆影响下的奖励估计问题,并通过实证评估证明了该算法的有效性。
Mar, 2018
通过在线回归将参数图学习与无信息判定相结合,该研究开发了第一个可用于无信息设置的情境算法,并证明使用对数损失可以获得有利的后悔保证。
Feb, 2024
本研究探讨了一种基于可实现性假设下的上下文强化学习问题,并提出了一种新算法 —— 回归器消除,证明了其在保证可实现性前提下,也具有与不可实现性假设情况相似的遗憾率;同时在任意一组策略的情况下,我们证明了本算法具有恒定遗憾,相对于之前的方法而言。
Feb, 2012