BriefGPT.xyz
Ask
alpha
关键词
reward prediction
搜索结果 - 5
线性高斯动态系统产 Generated 生的不相容 Bandit 问题
我们研究了连续状态空间中的不安宁赌博机问题,采用线性高斯动态系统生成的动作向量和状态向量的内积作为奖励,通过一种方法对每个动作的奖励进行预测,该方法通过线性组合先前观察到的奖励来预测每个动作的未来奖励。我们展示了无论先前选择的动作序列如何,
→
PDF
2 months ago
DreamSmooth: 通过奖励平滑改进基于模型的强化学习
基于模型的强化学习(MBRL)通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励,而不是给定时间步的精确奖励。实证结果表明,Dre
→
PDF
8 months ago
ICLR
联邦神经遗传算法
本篇论文介绍了联邦神经 - 上置信区间算法 (FN-UCB),该算法采用两个上界置信区间 (UCB) 的加权组合,以更好地利用联合设置,并证明了 FN-UCB 的累积后悔和通信轮数上限。
PDF
2 years ago
基于 Bandit 反馈的三种训练方法
本文综述了机器学习在推荐系统日志中的训练方法,并在 RecoGym 仿真环境中进行了实验。三种不同的训练方法分别是模型奖励预测,历史推荐分布调整和倾向性分数逆向估计,并探讨了它们的优缺点和性能表现。
PDF
5 years ago
ICML
Atari 游戏中联合视频帧和奖励预测的深度学习方法
本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法,将视觉帧预测的深度神经网络扩展为同时预测奖励,利用联合优化问题最小化奖励和视觉帧的重构误差,并在五个 Atari 游戏上经过实证评估,取得了高达 200 帧的准确累计奖励预测结果
→
PDF
8 years ago
Prev
Next