BriefGPT.xyz
Ask
alpha
关键词
intrinsic rewards
搜索结果 - 25
ICLR
基于技能空间规划的无需重置的终身学习
论文提出了一种基于高阶技能抽象规划的无剧本生涯强化学习框架 LiSP,该框架使用内在奖励进行技能学习并使用学到的动力学模型进行规划,能够在不断变化的非稳态非剧本的环境中取得成功,甚至有助于从离线数据中发现技能,减少与现实世界的交互。
PDF
4 years ago
基于表征空间的新颖性搜索,用于高效探索
通过将环境的低维编码与基于模型和无模型目标相结合的学习相结合,提出了一种有效探索的新方法,利用了基于低维表示空间最近邻之间的距离来衡量新颖性的固有奖励,进而在表示空间中利用这些固有奖励在奖励稀疏的困难探索任务中进行样本高效的探索。
PDF
4 years ago
在逼真环境中学习视觉导航,无需任何监督
提出了一种无需外部监督或奖励的新方法,通过三个阶段,学习从图像输入进行导航:学习视角的良好表示,然后使用内存进行探索,最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训,因此适用于任何具有图像观察的环境。通过使用 RGB 输入训
→
PDF
4 years ago
多智能体强化学习中基于内在奖励的协调探索
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
PDF
5 years ago
ICLR
信息搜索智能体
本研究通过将深度神经网络和强化学习技术相结合,实现了一种基于内部奖励机制的主动信息搜寻系统,通过在部分可见的环境中寻找并整合信息以实现各种目标,实验表明这种方法可以显著提高智能体搜寻信息的效率。
PDF
8 years ago
Prev
Next