价值预测网络

NIPSJul, 2017

Value Prediction Network

Junhyuk Oh, Satinder Singh, Honglak Lee

TL;DR本文提出了一种新型的深度强化学习架构 Value Prediction Network，将无模型和有模型强化学习方法集成到一个神经网络中，它通过学习一个动态模型，预测未来价值而非未来观测，实验结果表明，VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点，此外，VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN)，具有学习良好状态表示的潜力。

Abstract

This paper proposes a novel deep reinforcement learning (RL) architecture, called value prediction network (VPN), which integrates model-free

deep reinforcement learning value prediction network model-free model-based neural network

发现论文，激发创造

策略预测网络：在连续动作空间中，基于模型学习的无模型行为策略

本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法， Policy Prediction Network，该方法结合了模型自由与模型驱动强化学习，采用了经验证实的裁剪方法，实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。

Sep, 2019

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

视频像素网络

提出一种新的概率视频模型，Video Pixel Network (VPN)，它可以很好地估计视频像素点之间离散的联合分布，其在 Moving MNIST 和 Robotic Pushing 基准测试中都取得了最好的性能表现。

Oct, 2016

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

预测与评估：通过潜在未来预测分解价值估计

本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法，通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分，提高了价值估计的准确性，并在 OpenAI Gym 连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。

Mar, 2021

价值迭代网络

文章介绍了价值迭代网络（VIN），它是一个内嵌有 “规划模块” 的全可微神经网络，可以学习规划和预测基于规划的推理，如强化学习策略，其中的关键是一种新颖的可微近似值迭代算法，可表示为卷积神经网络，并使用标准反向传播进行端到端训练。我们在离散和连续路径规划域以及基于自然语言的搜索任务上评估 VIN 策略，并表明通过学习显式规划计算，VIN 策略可以更好地推广到新的、未见过的域。

Feb, 2016