BriefGPT.xyz
Ask
alpha
关键词
policy gradient-based model-agnostic meta-learning
搜索结果 - 1
元学习线性二次调节器:一种基于策略梯度的模型无关 LQR 的 MAML 方法
在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR
→
PDF
5 months ago
Prev
Next