BriefGPT.xyz
Ask
alpha
关键词
irrelevance conditions
搜索结果 - 1
正向和反向状态抽象用于策略离线评估
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估,并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件,进而提出一种新颖的两步骤程序,将原始状态空间顺序投影到较小的空间,从而大大简
→
PDF
9 days ago
Prev
Next