BriefGPT.xyz
大模型
Ask
alpha
关键词
goal-conditioned
搜索结果 - 5
基于地标的主动探索与稳定底层策略学习
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
PDF
a year ago
LARG,基于语言的自动奖励和目标生成
本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法,运用 Goal-conditioned 和 MTRL 技术,使用 Large Language Models,针对机器人操作的可扩展性问题进行了实验验证。
PDF
a year ago
交换式目标条件离线强化学习
本研究提出了一种离线目标条件强化学习方法,其中包括了通过目标交换产生其他轨迹,以及一个名为确定性 Q - 优势策略梯度的算法,它能够降低噪声和推断误差,与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异,且在具有挑战性的手部操
→
PDF
a year ago
离线目标条件强化学习的 $f$- 优势回归方法
提出了一种新的基于回归的离线 GCRL 算法 GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,
→
PDF
2 years ago
ICLR
层次强化学习的近乎最优表示学习
研究了目标驱动分层强化学习中表征学习的问题,提出了表征的子最优性的概念,并给出了衡量表征子最优性的指标,用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。
PDF
6 years ago
Prev
Next