- 折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析
针对折扣奖励马尔可夫决策过程(MDP)中方差的策略评估问题,我们推导了有限样本界限,该界限在均方差意义上成立,并在使用 / 不使用正则化的尾值迭代平均值时具有高概率,而且误差的初始衰减呈指数衰减,总界限为 $O (1/t)$,其中 $t$ - SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略
本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束,并提出了一种算法来近似安全的预言算法,并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。
- 结合实验和历史数据进行政策评估
本文研究了使用多个数据源进行政策评估的方法,特别是在一个包含两个实验群体的实验数据集,并补充了一个由单一对照群体生成的历史数据集的情景中。我们提出了一种新颖的数据集成方法,线性地整合基于实验数据和历史数据构建的基于政策值的估计器,通过优化权 - ICML动态治疗方案中的强化学习需要全面重新审视
通过对超过 17,000 个评估实验的案例研究,我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状,并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是,在一些情况下,随机基 - OPERA:多个估计器加权汇总的离线自动策略评估
提出了一个新的、自适应混合使用一组离线策略评估器的算法,该算法不依赖于显式选择,并证明了该评估器对政策评估具有一致性和几个可取的属性。此外,还证明了与其他方法相比,该评估器可以在医疗保健和机器人技术方面选择更高性能的策略,为离线强化学习中的 - 时序差异学习在罕见事件预测中的令人惊讶的效率
我们定量地评估了强化学习中政策评估的时间差异(TD)学习与直接或蒙特卡罗(MC)估计器的效率,重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD(LSTD)预测相较于 MC 能够更有效地实现相对准确性,并且通过 - 健壮马氏决策过程中高效锐利的离策略评估
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
- 关于价值函数的有限表达能力及其与统计 (非) 效率的联系
通过一系列的案例研究,本文深入探讨了模型识别和无模型方法之间的权衡,重点关注了在政策评估的核心问题上,价值函数空间内无法准确表示转移动态信息的情况,揭示了价值函数的表达能力限制是低效的驱动因素。
- 连续时间控制中积分增强学习的计算影响
积分强化学习中的计算方法选择(如求积法则)对控制性能产生显著影响,并通过与哈密顿 - 雅可比 - 贝尔曼方程的牛顿法相比较,揭示了计算误差在策略迭代中的额外误差项,并且在使用再生核希尔伯特空间中的效用函数时,通过贝叶斯求积法与诱导核函数结合 - 低秩赌博机的紧致二至无穷奇异子空间恢复
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
- 双重补偿学习在治疗效果估计中的无结构优化性
在这篇论文中,我们采用最近引入的无结构统计下界框架,证明了双重稳健估计器在平均处理效应以及对待处理群体的平均处理效应方面的统计优越性,以及这些估计器的加权变体,这在政策评估中广泛应用。
- AAAI从过去到未来:重新思考资格追踪
我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。
- 关于神经网络在时间差异学习中的性能
神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点 θ₀周围半径为 ω 的球 B (θ₀, ω) 的神经时间差异学习的收敛性分析,展示了一个近似界限为 O (ε)+~O (1/√m), - 集群网络干扰下的个体化政策评估与学习
在存在干预关系的集群网络中,评估和学习个性化治疗规则的最优性能,提出了一个可用于评估个性化治疗规则经验性能的估计器,该估计器比标准的倒数概率加权估计器更有效,而且可以改善学习策略的性能。
- 时差学习的有限样本分析
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
- 政策评估中的因果机器学习透明度挑战 —— 提高可用性与责任认定
通过可解释的人工智能工具和符合可解释人工智能原则的模型简化,本研究探讨了透明度问题在公共政策评估中对因果机器学习的影响,并应用到一个案例研究中,展示了现有工具对于理解黑盒预测模型的不适用性,以及将模型简化以提高可解释性会导致误差的不可接受增 - 在线估计和推断:强化学习中鲁棒政策评估
我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功 - 多批次强化学习中的样本效率:对维度相关适应性的需求
探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用 n 个查询的样本有效算法所需的批次数 K 存在最低限制为 Ω(log log d),并且仅有适应性并不能保证样本有效性。
- 抵消干扰稳健推理的凸框架
我们研究了关于未观测到的混淆因素的离线情境赌博的政策评估。我们提出了一个通用的估计器,使用凸规划方法提供政策价值的一个锐利下界,具有各种扩展应用和强有力的理论保证。
- 关于马尔可夫决策过程的奖励结构
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了