BriefGPT.xyz
Ask
alpha
关键词
exploration ability
搜索结果 - 3
基于模型内在动机的离策略学习与主动在线探索
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能
→
PDF
3 months ago
GFlowNets 与人类反馈
提出了使用人类反馈的 GFlowNets 框架来提高 AI 模型训练的探索能力,使用人类对不同轨迹的评估拟合奖励函数,目标是学习一个严格按照人类评级比例的策略,而非仅关注人类喜爱评级的 RLHF,实验证明 GFlowHF 比 RLHF 的探
→
PDF
a year ago
ICLR
稳定子目标表示学习的主动层次探索
本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率,并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态,实验结果表明,我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。
PDF
3 years ago
Prev
Next