value prediction | BriefGPT

关键词value prediction

搜索结果 - 4

TD-learning 下表示动态的更好理解
探讨了 TD-learning 对时间序列中状态表示的影响，特别是在环境可逆的情况下，TD-learning 可以严格减少价值近似误差，同时将其与转移矩阵的谱分解相联系，并用随机生成的奖励拟合多个值函数来辅助表征学习。
PDFa year ago
通过潜在意图从被动数据中进行强化学习
本文提出了一种基于意图模型和时序差分学习目标的强化学习方法，能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示，为解决后续任务提供了可行的价值预测的特性。
PDFa year ago
基于搜索的多智能体学习中的策略价值调整与鲁棒性
该研究提出了 VISA-VIS 方法，以提高 AlphaZero 中的策略价值一致性和价值鲁棒性，其可以将策略与价值预测矛盾降低 76％，将价值泛化误差降低 50％，将平均价值误差降低 55％。
PDFa year ago
ICLR深度策略梯度的深入探讨
研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架，并提出了对最先进方法的细粒度分析。结果表明，深度策略梯度算法的行为经常偏离其驱动框架所预测的行为，这表明了我们对当前方法的了解不足，并提示需要超越当前基准中心的评估方法。
PDF6 years ago