BriefGPT.xyz
Ask
alpha
关键词
distribution shift assumption
搜索结果 - 1
使用线性函数逼近的无限时域离线强化学习:维度诅咒与算法
本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法,提出了算法的样本复杂性的下界,以及样本复杂性的上界。
PDF
3 years ago
Prev
Next