混淆核化赌博机的双重仪器方法
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
通过整合因果推断文献中的平衡方法,开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性,并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析
Nov, 2017
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非常复杂的问题,因为策略依赖于嘈杂的上下文观察。
Jul, 2023
我们提出了一种基于上下文强化学习的联合组合和定价方法,该方法可以在零售业务中解决选品问题和定价问题,通过计算和真实案例研究证明了该方法的有效性。
Sep, 2023
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题,通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题,并通过线性规划的顺序求解来获得相容的因果模型,并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果,然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法,并对动作集大小和函数空间的影响进行了分析。与以往文献相比,我们的方法在函数逼近任务中可以处理一般的上下文分布,改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法,并实现了数量级更快的收敛速度。最后,我们进行了模拟实验,证明了我们的策略相对于当前最先进的方法的高效性,可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。
Aug, 2023
本文研究了同时利用有标签的监督数据和上下文匹配数据进行学习的可行性,提出并证明了对于两种数据源之间成本分布不匹配的情况下具有鲁棒性的无遗憾算法,通过大量数据集的实证研究表明了我们的方法既实用又可行。
Jan, 2019
提出了一种新的算法:Doubly-Robust Lasso Bandit algorithm,它利用线性回归参数的稀疏结构,融合在缺失数据文献中使用的双重稳健技术,解决了高维稀疏环境下多臂赌博机算法的问题,大大减少了调参数量和算法复杂度。
Jul, 2019