奖励预测聚类
本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用,使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。
Sep, 2019
本文提出了自回归表示(Self-Predictive Representations, SPR)方法,使用深度强化学习方法,并结合自监督目标和对视觉输入和与环境的交互结构的预测,提高了代理器的学习效率,并在Atari游戏中显著提高了性能。
Jul, 2020
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且所提出的使用注意力的方案具有可解释性。
Mar, 2022
本文提出了一种自动学习基于状态抽象的离散化模型,命名为 Discrete State-Action Abstraction (DSAA),可以有效地解决强化学习中的任务,并且对探索方案的影响进行了模拟和验证。
Jun, 2022
本研究提出了一种名为VIPER的算法,可以从未标记的视频中提取出训练模型,作为强化学习的无手段奖励信号,以实现专家级控制,在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。
May, 2023
本篇论文探讨了深度加强学习算法在面对状态空间无法预测,强烈依赖于重置时的困境。通过引入Lyapunov启发式奖励塑造方法,策略学习可以更快、更稳定地收敛到最优解
Jun, 2023
为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题,提出一种基于奖励机器的任务表示方法,使用抽象状态图与任务奖励动态的相互作用诱导子任务,从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明,该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。
Jul, 2023
深度强化学习的关键是表示方法,这篇论文揭示了多种表示学习方法和理论框架之间的共同性,特别是基于自预测抽象的思想,并给出了学习自预测表示方法的最简算法和实用指南。
Jan, 2024