压缩与控制

Nov, 2014

Compress and Control

Joel Veness, Marc G. Bellemare, Marcus Hutter, Alvin Chua, Guillaume Desjardins

TL;DR本文提出了一种新的信息论政策评估技术，该技术将任何压缩或密度模型转化为相应的值估计，研究了该技术在 Atari 2600 视频游戏中的应用，发现该技术提供足够准确的价值估计来有效地进行政策控制，并指出该技术在规模化问题上具有潜在的应用前景。

Abstract

This paper describes a new information-theoretic policy evaluation technique for reinforcement learning. This technique converts any compression<

information-theoretic policy evaluation reinforcement learning compression density model atari 2600 video games

发现论文，激发创造

鲁棒可预测控制

这篇研究论文提出了一种基于信息压缩的强化学习算法，通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能，并在性能、鲁棒性和泛化性方面都有显著提升。

Sep, 2021

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

广义离线估计稳定值

通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Feb, 2020

在线估计和推断：强化学习中鲁棒政策评估

我们在强化学习中开发了一种在线鲁棒的策略评估过程，并基于其巴哈多表示建立了我们估计器的极限分布。此外，我们还开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了一种更多功能和可靠性的方法。最后，我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。

Oct, 2023

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020