关键词sparse reward problems
搜索结果 - 3
- SAGE: 深度强化学习中为近视模型生成符号化目标
本文提出新的算法 SAGE,结合符号性规划与神经网络学习等方法,以克服传统模型的局限,更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。
- IJCAI深度强化学习的自动课程学习:简要调查
本文介绍了自动课程学习(ACL)的相关文献,并对当前状态进行了概述,旨在促进现有概念的交叉和新思想的出现。ACL 是深度强化学习成功的中坚力量,可用于改善样本效率和渐进性能,组织探索,鼓励泛化或解决稀疏奖励问题,等等。
- ICLR利用目标条件策略学习可操作表示
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。