了解过去预测未来：强化虚拟学习

Nov, 2022

了解过去预测未来：强化虚拟学习

Knowing the Past to Predict the Future: Reinforcement Virtual Learning

Peng Zhang, Yawen Huang, Bingzhang Hu, Shizheng Wang, Haoran Duan...

TL;DR本篇论文提出了基于预测模型，使用历史数据构建的虚拟空间的强化学习模型，能够平衡长期和短期奖励，并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下，我们的方法始终优于现有技术水平。

Abstract

reinforcement learning (RL)-based control system has received considerable attention in recent decades. However, in many real-world problems, such as batch process control, the environment is uncertain, which req

reinforcement learning batch process control predictive models virtual space fed-batch process

发现论文，激发创造

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

基于模型的深度强化学习加速流体模拟的学习

深度强化学习在闭环流控问题中应用模拟环境进行优化，通过模型和流模拟样本相互交替训练，有效减少流控应用中的计算时间，尤其对于复杂流模拟有着潜在的巨大节约。

Feb, 2024

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

用于自动驾驶的虚拟到现实强化学习

本文提出了一种虚拟到现实的转换网络，使得在虚拟环境中训练的强化学习驾驶策略可在现实世界中适应，实验证明此方法效果显著且为首次成功的案例。

Apr, 2017

未来预测能成为部分可观察环境中良好历史表达的有力证据

在部分可观察环境中，学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性，并证明了强化学习的性能与未来观察的预测准确性密切相关。同时，该方法可以阻止高方差嘈杂信号对表征学习的影响，显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。

Feb, 2024

系统辨识中的强化学习

该论文探讨了在强化学习领域中，如何通过学习前向模型（也称转移函数、系统动力学）来近似马尔可夫决策过程中状态转移函数的过程，并提出了利用强化学习技术解决复杂动态系统学习问题的实验结果

Dec, 2022

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019