BriefGPT.xyz
Ask
alpha
关键词
meta-gradient-based approach
搜索结果 - 1
在强化学习中模仿受成本约束的行为
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
PDF
3 months ago
Prev
Next