BriefGPT.xyz
Ask
alpha
关键词
low-rank transitions
搜索结果 - 2
低秩 MDP 中的密度特征强化学习
这篇论文研究了具有低秩转移矩阵的 MDPs,尤其是密度特征的样本高效学习,提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。
PDF
a year ago
ICML
对比上限置信区间算法:在在线强化学习中具有可证明高效的对比自监督学习
通过最小化对比损失,提取正确的特征表达,将自对比自监督学习引入马尔可夫决策过程和马尔可夫游戏中,进一步提出结合在线 RL 算法的 UCB-type 算法,理论上提出我们的算法恢复真实表示,并同时在学习最优政策和 Nash 平衡方面实现样本效
→
PDF
2 years ago
Prev
Next