过度参数化模型下的离线情境挑战
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。
Nov, 2021
在这篇论文中,我们介绍了一种新的 Oracle-efficient 算法,适用于无限行动设置下的线性情境强化学习问题,该算法实现了最优的拟合程度依赖性回归(square loss regression)的后悔上限,使得它能够在未知的模型错误情况下灵活适应。
Jul, 2021
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
通过整合因果推断文献中的平衡方法,开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性,并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析
Nov, 2017
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
本研究提出了一种新的算法,用于解决上下文 Bandit 问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
提出了一种简单的上下文 Bandit 算法族,该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差,而不需要像在线或约束回归神谕一样更健壮的神谕。
Feb, 2021
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
Oct, 2020
我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题,通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题,并通过线性规划的顺序求解来获得相容的因果模型,并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果,然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法,并对动作集大小和函数空间的影响进行了分析。与以往文献相比,我们的方法在函数逼近任务中可以处理一般的上下文分布,改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法,并实现了数量级更快的收敛速度。最后,我们进行了模拟实验,证明了我们的策略相对于当前最先进的方法的高效性,可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。
Aug, 2023