奖励预测聚类

Nov, 2022

Reward-Predictive Clustering

Lucas Lehnert, Michael J. Frank, Michael L. Littman

TL;DR通过聚类算法，构建奖励预测深度网络所需的状态抽象，加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。

Abstract

Recent advances in reinforcement-learning research have demonstrated impressive results in building algorithms that can out-perform humans in complex tasks. Nevertheless, creating reinforcement-learning systems that can build abstractions of their experience to accelerate learning in new contexts still remains an active area of research. Previous work showed

发现论文，激发创造

在强化学习中学习稀疏表示

本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Sep, 2019

自我预测表示法的数据有效强化学习

本文提出了自回归表示(Self-Predictive Representations, SPR)方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在Atari游戏中显著提高了性能。

Jul, 2020

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

通过继承表征进行离散状态-行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022

使用视频预测模型作为强化学习的奖励

本研究提出了一种名为VIPER的算法，可以从未标记的视频中提取出训练模型，作为强化学习的无手段奖励信号，以实现专家级控制，在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。

May, 2023

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入Lyapunov启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

深度强化学习中奖励机制抽象的上下文预规划，以增强迁移能力

为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题，提出一种基于奖励机器的任务表示方法，使用抽象状态图与任务奖励动态的相互作用诱导子任务，从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明，该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。

Jul, 2023

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

利用维度降低和轨迹聚类在神经网络的潜在空间中，研究深度强化学习代理的行为模式和改进方法。

Feb, 2024