BriefGPT.xyz
Ask
alpha
关键词
off-dynamics rl
搜索结果 - 1
分布鲁棒离轨强化学习:通过线性函数逼近的证明效率
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形
→
PDF
4 months ago
Prev
Next