sparse reward | BriefGPT - AI 论文速递

关键词sparse reward

搜索结果 - 12

无标签先验数据加速探索
从稀疏奖励信号学习解决任务是标准强化学习算法的一个重大挑战。然而，在现实世界中，代理很少需要完全从头开始解决稀疏奖励任务。本研究探讨了如何利用没有奖励标签的先前数据来指导和加速代理解决新的稀疏奖励任务，并提出了一种简单的方法，通过在线经验学
PDF8 months ago
技能批评家：为强化学习优化学得技能
利用 Skill-Critic 算法，结合高层技能选择来优化低级和高级策略，通过离线演示数据学习到的潜在空间来指导联合策略优化，提高在多个稀疏环境中的决策性能。
PDFa year ago
语言奖励塑形的脆弱性提醒：可能会阻碍指导式智能体的学习
本文讨论了语言奖励塑形（LRS）在强化学习（RL）中的应用，通过松弛任务约束的奖励扰动技术，降低了奖励有偏性的问题；同时提供了理论和经验证据，表明使用 LRS 奖励训练的代理相比纯 RL 代理收敛更慢。
PDFa year ago
从经验回放缓冲生成子目标的多智能体强化学习
本论文提出了一种名为 MASER 的新方法，它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明，与其他最先进的 MARL 算法相比，MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。
PDF2 years ago
基于图像增强的动量记忆内在奖励在稀疏奖励视觉场景中的应用
提出了一种新颖的框架 IAMMIR，将自我监督表征学习和内在动机相结合来解决视觉导航任务中只接受图像和稀疏奖励条件下智能体难以解决的问题。该方法在 Vizdoom 中进行评估，实现了样本效率的最佳表现，并且达到了 100% 的成功率，至少比
PDF2 years ago
RIDE: 面向程序生成环境的奖励驱动探索
本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。
PDF4 years ago
ICLRDDPG 算法中的问题：理解稀疏奖励下确定性环境的失败
本文阐述了稀疏奖励和确定性环境下，状态 - 行为连续空间下的强化学习算法会因收敛问题而失败的原因，并提出了解决这些问题的潜在方法。
PDF5 years ago
使用规范化流策略改进软演员 - 评论家算法的探索能力
该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。
PDF5 years ago
AAAI生成式探索与利用
本文提出了一种新方法 Generative Exploration and Exploitation（GENE），通过自动生成初始状态鼓励代理探索环境并利用接收到的奖励信号，可以自适应地在探索和利用之间进行权衡并与任何强化学习算法结合使用，
PDF5 years ago
通过最小化覆盖时间发现探索选项
该论文研究强化学习中处理稀疏回报的方法，提出了通过构造最小化覆盖时间的选项来加速探索的算法，并在多个领域实验证明其可以改善学习效率。
PDF5 years ago
ICLR竞争性经验回放
本研究提出了一种称为 competitive experience replay 的新型方法，在一个探索竞争环境中补充一种稀疏奖励，以两个代理之间的竞争推动探索。在一些基于二进制奖励任务中，对该方法进行了广泛的实验，证明这种方法会导致更快的
PDF5 years ago
为程序综合和语义解析优化的记忆增强策略
Memory Augmented Policy Optimization (MAPO) improves policy gradient's sample efficiency and robustness on tasks with sp
PDF6 years ago