研究了用重要性重采样代替再赋权提高强化学习中离线预测的性能,减小了更新权重值函数的方差,并在多个案例中探究了其有关权的偏差和一致性。
Jun, 2019
本文研究了马尔可夫决策过程中,利用重要性采样评估不同数据生成策略预期回报的问题。通过实验,我们发现使用估计的行为策略可降低离线策略评估的平均平方误差,尤其是在具有非马尔可夫性的情况下。
Jun, 2018
离线策略优化,随机情境赌博问题,重要性加权估计,隐性探索估计,PAC-Bayesian 策略类的改进
Sep, 2023
本文研究黑盒重要性抽样方法,可计算从任何未知提议或黑盒机制生成的样本的重要性权重,允许我们使用更好更丰富的提议来解决困难问题,并提高了估计精度。
Oct, 2016
本篇论文提出了一种基于模型的技术,在传输体验样本时自动估算每个样本与给定目标任务的关联性,以及在 RL 问题中使用重要性权重来解决负迁移问题,模型的结果经实验证明比目前最新的方法具有更好的学习性能和抗差能力。
May, 2018
提出了一种使用广义帕累托分布来稳定产生的重要性权重的方法,其估计量通常变化很大,而且估计值可能存在右偏重尾的问题。该方法包括已稳定的有效样本量估计,Monte Carlo 误差估计和收敛诊断。
Jul, 2015
本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架,探索了其应用于算法设计的新视角,并证实了它的理论意义及其派生算法。
Oct, 2019
该论文介绍了一种名为 SIS 的基于状态的重要性采样方法,用于解决强化学习中 target policy 的评估问题,并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明,与传统的重要性采样、逐决策重要性采样和增量重要性采样相比,SIS 具有更小的方差和更高的精度。
Dec, 2022
通过密度比重方法,本研究论述了重要性加权在统计学和机器学习中的广泛应用及其与相关研究的关联。
Mar, 2024
本文研究使用重要性采样方法对概率变分推断的影响,并提出了 “重要性加权变分推断(IWVI)” 技术,它是 “增广变分推断” 的一种实例,能够改善低维准确性和高维收敛性,实验证实了其对概率推断的实用性。
Aug, 2018