BriefGPT.xyz
Ask
alpha
关键词
surrogate rewards
搜索结果 - 3
关于 LTL 目标的 Bellman 方程解的唯一性
在利用贝尔曼方程求解线性时态逻辑目标的规划问题中,我们发现采用两个折扣因子的替代奖励方法能够逼近时态逻辑目标的满足概率,但当一个折扣因子设为 1 时,贝尔曼方程可能存在多解从而导致期望回报评估不准确。我们提出了一个条件,使得贝尔曼方程等式有
→
PDF
3 months ago
NIPS
一种用于选择强化学习智能体的赌博机框架
本文提出一种基于多臂赌博机框架的深度强化学习方法,通过选择最适合特定应用的学习模型和增强学习代理,解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理,并且相较于其他策略在同样步数内获得更高的累计奖励
→
PDF
5 years ago
AAAI
扰动奖励的强化学习
本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略,实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。
PDF
6 years ago
Prev
Next