BriefGPT.xyz
Ask
alpha
关键词
cost constraints
搜索结果 - 5
在强化学习中模仿受成本约束的行为
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
PDF
3 months ago
使用背包问题的上下文臂局部总成本约束,在公平性中的应用
本文提出了一种基于投影梯度下降思想的具有公平性约束的上下文赌博问题解决算法,能够处理特定成本约束条件下的收益最大化问题。
PDF
a year ago
ICLR
COptiDICE: 离线约束强化学习基于稳态分布修正估计
本文提出了一种基于 COptiDICE 的离线约束强化学习算法,该算法直接估计稳态分布的矫正值以优化策略,以满足成本约束,并在实验中表现出更好的约束满足和回报最大化的策略.
PDF
2 years ago
在约束条件下的马尔可夫决策过程学习
本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用 M+1 维的后悔向量来衡量奖励和不同成本的
→
PDF
4 years ago
约束上置信强化学习
本文提出了一种名为 C-UCRL 的算法,扩展了上置信度强化学习的范围,解决了在奖励函数、约束和转移核函数均未知的情况下探索未知、潜在不安全的环境问题,并在学习的过程中满足奖励约束条件,具有亚线性后悔度。
PDF
4 years ago
Prev
Next