BriefGPT.xyz
Ask
alpha
关键词
state-action pairs
搜索结果 - 3
自适应屏蔽在黑盒环境中的安全强化学习
在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
PDF
a month ago
ICML
基于模型的离线强化学习与基于计数的保守性
本文提出了一种基于模型的离线强化学习方法 $ exttt {Count-MORL}$,该方法利用状态 - 动作对的计数估计量来量化模型估计误差,并首次演示了计数保守性在基于模型的离线深度强化学习中的效果。通过广泛的数值实验,我们验证了使用哈
→
PDF
a year ago
折扣正则化的意外后果:提高确定性等价强化学习中的正则化
本文介绍一个基于状态 - 动作对的参数设置方法,用于解决基于折扣因子进行计划的正则化的不足和缺陷,能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。
PDF
a year ago
Prev
Next