研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题,提出使用 GAE 方法的一部分来计算更新,称之为 “partial GAE approach”,在实验证明该方法在两个环境中都得到更好的结果。
Jan, 2023
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
本文探讨了如何使用深度神经网络和政策梯度方法,通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题,取得了在高难度 3D 运动任务中显著的实证结果。
Jun, 2015
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
Jul, 2020
本文提出一种新的数据增强算法 ——Population Based Augmentation (PBA)—— 来生成非静态的增强策略日程表,相比于目前最先进的方法 AutoAugment,PBA 在 CIFAR-10、CIFAR-100 和 SVHN 数据集上耗费的总计算资源少三个数量级,但性能相当。在 CIFAR-10 数据集上,我们实现了 1.46% 的平均测试误差,稍微优于当前的最先进水平。
May, 2019
该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error,提出了一种名为 BEAR 的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。
Jun, 2019
本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE),用于解决离线学习中过度估计值所导致的错误问题,该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。
Mar, 2021
本文提出了一种优化图像识别模型和数据增强策略的方法,使用梯度下降同时优化两者,通过使用 Neumann 级数逼近来近似策略梯度,以实现高效可扩展的训练,以提高各种图像分类任务的性能。
提出了一种基于贝叶斯公式,利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法,能更好地生成新的标注训练样本,并在 MNIST,CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。
Oct, 2017
本文提出了一种新的更新价值函数的方法 ——η 回报混合,其将 TD 方法和 SF 方法相结合,并在表格和非线性函数逼近上进行了实验,结果表明该方法具有更高的效率和控制性能。
Jan, 2022