提高离线情境感知强化学习的分布鲁棒性
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差-方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
本文介绍了使用分布式鲁棒优化(DRO)解决交叉事实风险最小化(CRM)问题的想法,并证明了DRO是对策反决策的一种有原则的工具。我们提出了使用Kullback-Leibler马氏距离作为CRM中不确定性的代替方法,并基于这一方法提出了一种新的鲁棒对策反目标。通过实验证明,在实践中使用其他不确定性度量具有重要意义。
Jun, 2019
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本文研究实现条件下的通用上下文医生模型并提出了一种名为'Upper Counterfactual Confidence Bounds'的乐观算法,该算法通过在策略空间而非行动空间分析置信区间以及利用潜在功能视角表达在上下文环境中乐观情绪的作用来解决大上下文空间下的问题,并通过引入‘反事实行动偏差’的概念来扩展UCCB原理以涵盖无限行动空间。
Jul, 2020
本文从对抗鲁棒性的角度重新审视了两个经典的高维在线学习问题,即线性回归和情境地图,并探究了无需假设数据分布,直接从全局角度保证它们对抗鲁棒的可行性。具体方法是通过交替最小化策略将普通最小二乘法嵌入到简单的凸约束计算不完整数据下的最优加权分布,并证明该方法在污染程度方面具有最佳的可重复性和完整性。
Oct, 2020
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。
Nov, 2021
我们研究了关于未观测到的混淆因素的离线情境赌博的政策评估。我们提出了一个通用的估计器,使用凸规划方法提供政策价值的一个锐利下界,具有各种扩展应用和强有力的理论保证。
Sep, 2023