BriefGPT.xyz
Ask
alpha
关键词
dynamic decision making
搜索结果 - 1
方差减少的分布鲁棒 Q 学习的样本复杂性
本论文提出了两种模型无关的算法,分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
PDF
a year ago
Prev
Next