value function learning | BriefGPT

关键词value function learning

搜索结果 - 6

PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer
提出一种用于离线强化学习的分层规划器 PlanDQ，其中包括高层的扩散式规划器 D-Conductor，用于指导低层策略实现子目标，并采用 Q-learning 的方法 Q-Performer 来完成这些子目标，实验结果表明 PlanDQ
PDFa month ago
学习后继状态和目标相关价值：数学视角
本文介绍基于时间差异的强化学习理论，讨论了继承状态和与目标有关的价值函数模型的应用，并提供了适用于离散或连续环境下的迭代算法，其中 Bellman-Newton 操作符编码环境中路径的组合形成性，提供状态的两个典型表示，并提供函数的真实更新
PDF3 years ago
ICML减少批量时间差分学习中的采样误差
本文针对 TD (0) 算法在批量设置下的不足之处，提出一种基于重要性采样和估算经验分布的改进算法 ——PSEC-TD (0)，并在三个价值函数学习任务上进行实证评估，结果显示 PSEC-TD (0) 比 TD (0) 具有更低的均方误差，
PDF4 years ago
ICLR模型增强的 Actor-Critic 算法：透过路径反向传播
本文介绍了一种新的基于模型的强化学习算法，通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法，同时通过学习一个演员评论家，使用终端值函数避免了通过多个时间步长的不稳定性。结果显示，该方法比现有的最先进的基于模型的算法在样
PDF4 years ago
解决贝尔曼方程的核损失
本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。
PDF5 years ago
随机数值函数的深度探索
本研究探讨了随机价值函数在强化学习中引导深度探索的使用，证明了其在合成统计上和计算效率上与常见的实用价值函数学习方法的探索的优越性，并通过计算实验证明了其有效性，并证明了在表格表示下的统计效率的遗憾界（regret bound）
PDF7 years ago