BriefGPT.xyz
Ask
alpha
关键词
reward-based learning
搜索结果 - 2
去噪 MDPs:学习比世界本身更好的世界模型
该论文提出了一种基于奖励的学习框架,旨在通过分离信号与噪声、提取有用信息以及抑制某些噪声分心因素的方式来改进强化学习中的表示学习,实验结果表明其在控制任务和联合位置回归等任务中优于其他先前工作。
PDF
2 years ago
学习目标导航的层次关系
该研究提出了一种基于目标导向的导航算法 MJOLNIR,利用对象之间的关系和环境 context 来进行目标定位,相较于现有方法,在多种环境下实现了 82.9% 和 93.5% 的更高成功率和更短路径长度,并且收敛速度更快,并避免了过拟合问
→
PDF
4 years ago
Prev
Next