感知增强学习中的差分编码观测空间

Oct, 2023

感知增强学习中的差分编码观测空间

Differentially Encoded Observation Spaces for Perceptive Reinforcement Learning

Lev Grossman, Brian Plancher

TL;DR通过差分编码观察空间，将基于图像的观察重新解释为视频，并利用无损差分视频编码方案来压缩回放缓冲区，以降低记忆占用，提高学习性能和延迟。

Abstract

perceptive deep reinforcement learning (DRL) has lead to many recent breakthroughs for complex AI systems leveraging image-based input data. Applications of these results range from super-human level video game a

perceptive deep reinforcement learning image-based input data differential video encoding memory intensive field robots

发现论文，激发创造

使用低维观测滤波器的深度强化学习在视觉复杂游戏中的应用

本论文提出了一种低维观察过滤器，使深度 Q 网络代理能够在视觉复杂的现代视频游戏（Neon Drive）中成功玩耍。

Apr, 2022

通过存储嵌入，提高视觉强化学习的计算效率

本论文提出了一种基于 Stored Embeddings for Efficient Reinforcement Learning (SEER) 的改进深度强化学习方法，以减少计算和内存要求，并且在 DeepMind Control 和 Atari 游戏等不同环境中进行了实验证明其可行性。

Mar, 2021

高效基于实体的强化学习

本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据，从而拓宽深度强化学习算法的应用范围，改善训练时间和鲁棒性，并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。

Jun, 2022

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

一种内存高效的蛇游戏自主代理深度强化学习方法

本文提出了一种改进的深度强化学习方法，使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理，避免了需要额外环境信息的需求，从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。

Jan, 2023

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021

动态体验回放

提出了一种名为动态经验重放（DER）的新技术，它允许强化学习算法不仅使用人类示范的经验重放样本，还使用训练期间由 RL 代理生成的成功转移，因此提高了训练效率，并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验，并比较不同的重放缓冲区结构和 DER 在其中的影响。

Mar, 2020

基于视觉观测的离线强化学习中的挑战与机遇

本文旨在建立连续控制的视觉基线，通过离线强化学习从视角上建立简单的基线，并在数据集中严格评估算法，同时分析了离线视角下的重要的特殊需求。

Jun, 2022

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020