关键词contextual policy search
搜索结果 - 3
- 基于贝叶斯优化的因素化情境策略搜索
提出基于贝叶斯优化的因式化上下文策略搜索方法来提高机器人学习数据效率,通过将通常考虑的文本刻画为目标类型上下文和环境类型上下文两个部分,从而实现经验在目标类型上下文中直接泛化。初步结果表明,该方法在模拟玩具问题上可以更快地泛化策略。
- 从人类反馈学习机器人到人类的动态物体递交
本文介绍了一种基于学习算法的动态物体移交方法,通过与人类交互学习物体移交的潜在报酬,使机器人能够自然地适应人体运动的动态,并通过上下文策略搜索来建立问题模型。
- 主动上下文熵搜索
这篇论文研究了使用贝叶斯优化中的熵搜索来进行主动上下文策略寻优,以便在少量试验中学习成功的行为。