- 时序差分学习是否最优?一种实例相关的分析
通过引入变量缩减形式的随机逼近,本研究提出了一种实例依赖的策略评估算法,并在非渐近条件下实现了优化性能,同时在理论上证明了其优越性。
- ICLR方差缩减时序差分学习的重新分析
本文介绍了 variance reduced TD(VRTD)算法及其在非渐进情况下演化的方向收敛性和方差减少性,证明了 VRTD 具有线性收敛速度,在 Markov 采样的条件下能够显著降低方差误差和偏差误差。
- 基于 Fenchel-Rockafellar 对偶的强化学习
本论文主要探讨凸对偶性的基本概念,重点关注最通用且超级有用的 Fenchel-Rockafellar 对偶性,总结了如何将此对偶性应用于各种强化学习(RL)场景中,包括策略评估或优化、在线或离线学习,以及折现或未折现奖励。
- 最紧密的有限时间界约束下的两时间尺度强化学习故事
以两时间步随机逼近框架为基础的渐变时序差异方法(GTD (0)、GTD2 和 TDC)的收敛速率界限及其证明。
- DualDICE:行为无关的折现稳态分布修正估计
本研究提出了一种名为 DualDICE 的算法,用于在强化学习应用中的政策评估和训练过程中,对固定数据集进行修正,从而提高精度和性能。
- IJCAI少量梯度评估的政策评估 SVRG
本文提出了 Stochastic Variance-Reduced Gradient 方法的两种变体应用于 Policy Evaluation,可以显著减少梯度计算次数,同时保持线性收敛速度,理论分析表明这些方法不需要在每次迭代中使用整个数 - 神经时序差分和 Q-learning 可以被证明收敛于全局最优解
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
- 具有线性函数逼近的分布式强化学习
本文提出了一种完全基于 Cramér 距离的分布式算法,该算法可以与线性函数逼近相结合,针对策略评估提供正式保证,并证明了分布式算法与函数逼近的收敛性,并得出 Cramér 分布方法可能比直接逼近值函数表现更差的结论。
- 相对熵正则化策略迭代
我们提出了一种基于离线策略的 Actor-Critic 算法,结合了随机搜索梯度 - free 优化和学习的动作价值函数,通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤,在 31 个连续控制任务中进行对比与 - 马尔可夫环境下有限样本分析 GTD 策略评估算法
本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析,证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关,说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。
- 双平均原始对偶优化的多智能体强化学习
该论文提出了一种双重平均方案,其中每个代理迭代地执行平均化,以融合相邻梯度信息和本地奖励信息,解决多智能体强化学习中的政策评估问题,并且实现了分散的凸凹螺旋点问题的快速收敛。
- IJCAI基于随机投影和资格追踪的 LSTD 有限样本分析
该研究提出了一种利用随机投影和资格痕迹策略处理高维特征空间下的政策评估问题的新算法,经过理论分析,证明其比之前的算法表现更好。
- 连续处理的政策评估与优化
扩展了离散治疗的反倾斜权重和双重稳健方法,使用了一个利用治疗接近程度的核函数来衰减拒绝采样,缓解了样本拒绝问题,可应用于持续的治疗问题,通过个性化给药数据集的案例研究,得到了比基准更好的策略推荐结果。
- ICML强化学习中超越单步贪心方法
本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐 - ICML强化学习的分布视角
本文阐述了价值分配的重要性,提出了一种基于价值分配的学习算法,并通过实证结果证明了该算法的有效性。
- ICML行为策略搜索增强数据高效策略评估
本篇论文提出了一个基于行为策略的评估方法,利用之前数据收集的行为策略,提供了一个标准方法更低均方误差无偏估计的解决方案,并给出了优化理论和搜索算法。
- ICML策略评估的随机方差缩减方法
本文提出了一种基于线性函数逼近的政策评估算法,将经验政策评估问题转化为一个凸凹优化鞍点问题,并通过一些批量梯度方法和随机方差约减方法解决问题,在实验中取得了良好的效果。
- 通过双重嵌入学习条件分布
本论文提出了一种新的训练条件分布问题的方法,利用 Embedding-SGD 算法,解决了样本量小的问题,结果在合成数据及真实数据上都取得了显著的性能提升。
- 应用计量经济学的现状 - 因果关系和政策评估
这篇论文讨论了计量经济学的三个主要领域,分别是政策评估、识别策略和机器学习。论文详细解释了在每个领域中应用的最新技术以及建议。
- 基于非当前策略的推荐策略评估
本文研究了基于上下文的推荐策略(例如排名)的评估方法,在组合赌博技术的基础上引入了一种新的实用估计量,该方法可以使用已记录的数据估计政策的绩效,经过全面的实证评估,我们的估计器在多种设置下都很准确,包括在学习排序任务中作为子程序,我们导出了