UGAE: 一种新的非指数折扣方法

Feb, 2023

UGAE: A Novel Approach to Non-exponential Discounting

Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettré, Marie-Paule Cani

TL;DR研究了强化学习中折扣机制的作用，提出了通用广义优势估计（UGAE）算法，引入了 Beta 加权折扣方法，实验证明 UGAE 算法在标准强化学习测试中表现优异于蒙特卡洛优势估计算法。

Abstract

The discounting mechanism in reinforcement learning determines the relative importance of future and present rewards. While exponential discounting is widely used in practice, non-exponential discounting methods

reinforcement learning discounting mechanism universal generalized advantage estimation beta-weighted discounting monte carlo advantage estimation

发现论文，激发创造

部分优势估计器用于近端策略优化

研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题，提出使用 GAE 方法的一部分来计算更新，称之为 “partial GAE approach”，在实验证明该方法在两个环境中都得到更好的结果。

Jan, 2023

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022

强化学习中策略优化的 Bootstrap 优势估计

本文提出了一种基于数据增强的优势估计方法，该方法基于 bootstrap 方法计算优势估计，并用于学习和更新策略和价值函数，有效地提高了累积奖励和未知环境的测试性能。

Oct, 2022

马尔可夫决策过程中的几何主动探索：抽象的好处

这篇研究论文介绍了利用强化学习（Reinforcement Learning）算法设计动力系统状态空间上的实验的方法，通过将优化问题转化为凸强化学习（Convex RL），并利用几何结构进行抽象，提出了具有统计和计算效率优势的几何主动探索（Geometric Active Exploration）算法。

Jul, 2024

生成对抗探索强化学习

本文提出一种新方法，即生成对抗性探索 (GAEX)，来通过引入来自生成对抗网络的内在奖励，鼓励强化学习中的探索，以帮助鉴别是否访问了新颖的状态，而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明，在 DQN 上应用 GAEX，可以在不进一步调整复杂的学习算法的情况下，在具有挑战性的探索问题中实现令人信服的性能提升，包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知，这是首次使用 GAN 解决强化学习中的探索问题。

Jan, 2022

多时间跨度的双曲折扣与学习

本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Feb, 2019

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

蒸馏策略优化

本文提出了一种基于演员 - 评论家学习框架的算法，通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习，并且采用方差约减机制和学习基线以稳定策略梯度的方法，从根本上改进了样本效率和可插值性。

Feb, 2023

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018

深度点击率预测的对抗梯度驱动探索

本研究提出了一种名为 Adversarial Gradient Driven Exploration（AGE）的基于探索 - 开发策略的更新算法，该算法考虑了探索策略对模型训练的影响，并引入了动态门控单元来防止资源浪费。该算法在学术数据集和世界领先的广告平台上得到了有效的验证。

Dec, 2021