value iteration | BriefGPT - AI 论文速递

关键词value iteration

搜索结果 - 33

ICML多步贪心强化学习算法
本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势，并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现
PDF5 years ago
从负采样演示中学习自我校正策略与价值函数
本研究提出了适应于分层控制任务的一种新型学习算法 Value Iteration with Negative Sampling (VINS)，具有自我校正的策略，可解决 Teacher 数据样本偏移及学习效率低下等问题，进而可以用于初始值的
PDF5 years ago
随机动作集的规划与学习
研究了具有随机动作集的马尔可夫决策过程及其最优策略和值函数的性质，并针对不同情况提出了多项式时间的策略迭代和价值迭代方法。
PDF6 years ago
降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。
PDF7 years ago
用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习
本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程，引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布，并与利用因果熵正则化的软 Markov 决策过程进行了比较，在强化学习问题中应用
PDF7 years ago
强化学习的极小后悔界
本文研究了有限时间 MDPs 中探索的最优性问题，提出了一种基于值迭代的乐观算法，其探索奖励基于下一个状态的经验值的变化量，通过使用集中不等式提高算法的可伸缩性，取得了优于先前最佳算法的研究成果，可以实现与已知理论下限相匹配的后悔度。
PDF7 years ago
基于递归卷积神经网络的强化学习
使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替
PDF7 years ago
Lambda-Policy Iteration: 评述与新实现
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代，并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外，讨论了多种基于此方法的实现，其中一种实现是基于一种新的模拟方案，称为几何采样。
PDF9 years ago
MM近似动态规划的理论和数值分析及其近似误差
本研究探讨了近似动态规划中每次迭代的近似误差如何影响最终结果的质量，研究表明可以基于一些已知量和可验证的假设获得一定范围内的最优解，同时通过计算控制近似误差的上界得到系统稳定的充分条件，最后在轨道机动问题中验证了理论研究的假设并应用了稳定性
PDF10 years ago
拓扑值迭代算法
提出了两种优化的 MDP 算法，分别是基于拓扑序列的拓扑值迭代算法 (TVI) 和基于聚焦拓扑值迭代算法 (FTVI)，前者使用拓扑排序来备份状态，后者通过启发式搜索来消除次优行动。在多个领域的多个测试中，FTVI 在效率上都明显优于其他算
PDF10 years ago
在有限时间无限阶段马尔可夫决策过程中使用非平稳策略
论文提出了为无限时域的马尔科夫决策过程 (即 MDP) 设计出计算非平稳最优策略的算法，其中引入了价值迭代和策略迭代，可以使得计算出的平稳或非平稳最优策略与实际的最优策略的距离最多相差一定精度。
PDF12 years ago
启发式搜索值迭代用于 POMDPs
本文提出了一种名为启发式搜索值迭代 (HSVI) 的新型 POMDP 规划算法，采用注意力集中搜索启发式和分段线性凸表示值函数的技术相结合，可在保证收敛与正确性的情况下提高计算速度，并在大规模问题上运用效果良好。
PDF12 years ago
基于点的 POMDP 算法：改进分析与实现
该论文讲述了针对基于点的 POMDP 值迭代算法的复杂度界限，提出了一个基于折扣可达性并结合历史和维度的新界限，并介绍了改进的启发式搜索值迭代算法的最新进展。
PDF12 years ago