IGN：隐式生成网络

Jun, 2022

IGN : Implicit Generative Networks

Haozheng Luo, Tianyi Wu, Colin Feiyu Han, Zhijun Yan

TL;DR利用 GAN 模型的生成器和判别器函数与分位数回归来近似状态行动返回分布的完整分位数值，结合最近的分布强化学习的进展，实现了基于 IQN 的最新分布式变体模型，并在 ALE 中基于 57 种 Atari 2600 游戏的基准数据集上演示了改进的性能，进而使用策略优化和评估的方式展示了对风险敏感策略的最新训练表现。

Abstract

In this work, we build recent advances in distributional reinforcement learning to give a state-of-art distributional variant of the model based on the iqn. We achieve this by using the gan model's generator and

distributional reinforcement learning iqn gan model quantile regression atari games

发现论文，激发创造

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

自回归分位数网络用于生成建模

通过引入自回归隐式分位数网络 (AIQN)，本文提出了一种与传统模型不同的生成模型方法，通过量化回归隐式地捕获分布，AIQN 可以在不损失样本多样性的情况下实现优越的感知质量和评估度量的改进，使用 Inception score、FID、非樱桃挑选样本和修补结果等指标，我们将 AIQN 扩展到 PixelCNN 模型，并在 CIFAR-10 和 ImageNet 上展示结果，结果表明，AIQN 可以稳健地提高感知质量，同时仍保持高度多样化的分布。

Jun, 2018

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

通过生成模型的内在奖励驱动的模仿学习

通过引入一种新的奖励学习模块，可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码，提高模块在环境中的动力学建模能力，并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明，我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法，即使只有一次演示，性能也是演示的 5 倍。

Jun, 2020

慕尼黑强化学习

本文提出一种利用当前策略对强化学习中未知状态值的估计方法，以及通过在 DQN 和 IQN 算法中添加缩放的 log 策略函数获得与分布式 RL 相竞争的新代理的实验研究和理论分析。

Jul, 2020

iQRL - 隐式量化表示用于高效强化学习

使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法，通过量化潜在表示以保留表示的秩，命名为 iQRL：隐式量化强化学习，可与任何无模型强化学习算法兼容，并在 DeepMind 控制套件的连续控制基准中表现优异，超过其他最近提出的表示学习方法。

Jun, 2024

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

隐式分布强化学习

研究提出了一种隐式分布型 actor-critic (IDAC) 算法，它包括一个基于两个深度生成器网络 (DGNs) 的分布型评论家和一个由灵活的策略分布支持的半隐式演员 (SIA)，可用于提高策略梯度强化学习算法的样本效率。

Jul, 2020

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019