BriefGPT.xyz
Ask
alpha
关键词
value function realizability
搜索结果 - 1
离线强化学习:状态聚合和轨迹数据的作用
离线强化学习中,对于具有价值函数的可实现性但不具备 Bellman 完备性的问题,我们提供了关于离线策略评估任务的负回答,并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性,即使原始 MDP 中的集中度系数较小且离线数据可接受
→
PDF
3 months ago
Prev
Next