提高离线情境感知强化学习的分布鲁棒性
本文从对抗鲁棒性的角度重新审视了两个经典的高维在线学习问题,即线性回归和情境地图,并探究了无需假设数据分布,直接从全局角度保证它们对抗鲁棒的可行性。具体方法是通过交替最小化策略将普通最小二乘法嵌入到简单的凸约束计算不完整数据下的最优加权分布,并证明该方法在污染程度方面具有最佳的可重复性和完整性。
Oct, 2020
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023
在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。
Dec, 2023
本文介绍了使用分布式鲁棒优化 (DRO) 解决交叉事实风险最小化 (CRM) 问题的想法,并证明了 DRO 是对策反决策的一种有原则的工具。我们提出了使用 Kullback-Leibler 马氏距离作为 CRM 中不确定性的代替方法,并基于这一方法提出了一种新的鲁棒对策反目标。通过实验证明,在实践中使用其他不确定性度量具有重要意义。
Jun, 2019
本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法,该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性,并在真实世界数据集中展示了该方法的应用。
Jun, 2020
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中,我们的实证结果表明我们的方法明显优于基准方法。
Jan, 2024
本文提出了一种新的分布式在线学习框架,将学习者建模为合作的情境赌博机,分析了分布式在线学习算法和完全知识基准的效率,研究表明后者在时间上失误是亚线性的,该理论框架可用于许多实际应用中,包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。
Aug, 2013
我们研究了关于未观测到的混淆因素的离线情境赌博的政策评估。我们提出了一个通用的估计器,使用凸规划方法提供政策价值的一个锐利下界,具有各种扩展应用和强有力的理论保证。
Sep, 2023
本研究提出了一种分布鲁棒的随机优化框架,利用凸形式化来解决学习模型受到数据生成分布扰动的问题,并通过多项收敛性保准来证明模型的可靠性,同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。
Oct, 2018
本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法,通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。
May, 2023