BriefGPT.xyz
Ask
alpha
关键词
exploratory behavior
搜索结果 - 2
贝叶斯解决模仿间隙
在缺乏奖励信号的环境中,我们提出了一种基于贝叶斯的解决方案(BIG),通过使用专家演示和指定未演示的探索性行为成本的先验,来推断贝叶斯逆强化学习(IRL)中的奖励后验,从而学习到基于贝叶斯的最优策略。我们的实验表明,BIG 能够在测试时适应
→
PDF
7 days ago
主动学习高斯过程动力学
本文提出了利用高斯过程回归中自然产生的信息理论特性的主动学习策略,尊重系统动态 imposed 约束下的抽样过程,并在高不确定度区域选择抽样点,以实现探索性行为和数据高效训练。该方法在大量数值基准测试中得到验证。
PDF
5 years ago
Prev
Next