通过离线神谕在具有多个类别的情境下选择最优模型的方法
提出了一种简单的上下文 Bandit 算法族,该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差,而不需要像在线或约束回归神谕一样更健壮的神谕。
Feb, 2021
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有 $T$ 回合中通过对离线回归神谕的 $logT$ 次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
本研究提出了一种新的技术,将可实现性方法的经验和计算优势与不可知方法的灵活性相结合,借助回归预测器的可用性来进行算法优化,实现了任何分布假设下出色的表现。
Mar, 2018
在这篇论文中,我们介绍了一种新的 Oracle-efficient 算法,适用于无限行动设置下的线性情境强化学习问题,该算法实现了最优的拟合程度依赖性回归(square loss regression)的后悔上限,使得它能够在未知的模型错误情况下灵活适应。
Jul, 2021
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
本文介绍了一种称为 `pessimistic policy optimization` 的算法,用于处理 contextual bandits 中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的基础上进行训练,非常适用于处理连续和离散行为空间的问题。
Jun, 2023
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。
Mar, 2020