BriefGPT.xyz
Ask
alpha
关键词
q-functions
搜索结果 - 4
正向和反向状态抽象用于策略离线评估
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估,并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件,进而提出一种新颖的两步骤程序,将原始状态空间顺序投影到较小的空间,从而大大简
→
PDF
9 days ago
ICML
应用于机器翻译的 Q 函数学习的 Lagrangian 方法
本文提出了一种新方法来解决学习最优 Q 函数的基本问题,该方法将最优 Q 函数定为非线性 Lagrange 函数的鞍点,并应用于模仿学习和机器翻译基准测试,同时证明了 Lagrange 函数的对偶性和对称性破缺现象的存在。
PDF
2 years ago
ICML
再探 Softmax Bellman Operator: 新的益处与新的视角
本文研究了在强化学习领域中,softmax 对值函数本身的影响,表明其虽然与 Bellman operator 的收敛性质有冲突,但在值函数近似的情况下,结合深度 Q 学习可以产生更出色的 Q-function 性能,并可减少 overes
→
PDF
6 years ago
增大行动差距:强化学习的新算子
介绍了一些新的 Q 函数的保优性算子,其中包括局部策略一致性一类的操作,可以有效减缓近似和估计误差对诱导贪心策略的不良影响,并在包括枚举离散问题和连续问题的情形下提供了有效性证明。
PDF
9 years ago
Prev
Next