关键词exploration techniques
搜索结果 - 6
- 基于被审查反馈的学习泛化误差界
非独立同分布的数据和带有审查反馈的数据对学习理论中的泛化误差界限有影响,本文通过推导改进的 Dvoretzky-Kiefer-Wolfowitz 不等式来界定这种影响,并通过分析探索技术的有效性提供新的误差界限模型。
- 基于好奇心探索的目标条件离线规划
通过分析优化目标条件下的价值函数的几何特征,我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像,并在各种模拟环境中显著提高了零 - shot 目标达成性能。
- 视频推荐中健壮多臂赌博框架的设计原则
设计原则提供了一种新的多臂老虎机模型,可以解决推荐系统中关于分布变化和物品损耗的挑战,并且通过实验证明了该设计对动态行为变化的鲁棒性以及解决流行性偏见方面的优越性。
- 深度贝叶斯多臂赌博机:在线个性化推荐中的探索
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
- 高斯过程状态空间模型本地主动学习
本文提出了一种基于高斯过程状态空间模型的主动学习策略,旨在获取状态操作空间有界子集上的准确模型,并通过模型预测控制集成探索过程中收集的信息和自适应改进探索策略。
- 为什么在强化学习中层级结构有时候能够成功?
本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现,发现大多数观察到的层次性优势可以归因于改进的探索,而不是政策学习或强制性的层次结构。给定此洞察,我们提出了启发式的探索技术,其性能与层次强化学习相当,同时使用和实现