BriefGPT.xyz
大模型
Ask
alpha
关键词
value prediction
搜索结果 - 4
TD-learning 下表示动态的更好理解
探讨了 TD-learning 对时间序列中状态表示的影响,特别是在环境可逆的情况下,TD-learning 可以严格减少价值近似误差,同时将其与转移矩阵的谱分解相联系,并用随机生成的奖励拟合多个值函数来辅助表征学习。
PDF
a year ago
通过潜在意图从被动数据中进行强化学习
本文提出了一种基于意图模型和时序差分学习目标的强化学习方法,能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示,为解决后续任务提供了可行的价值预测的特性。
PDF
a year ago
基于搜索的多智能体学习中的策略价值调整与鲁棒性
该研究提出了 VISA-VIS 方法,以提高 AlphaZero 中的策略价值一致性和价值鲁棒性,其可以将策略与价值预测矛盾降低 76%,将价值泛化误差降低 50%,将平均价值误差降低 55%。
PDF
a year ago
ICLR
深度策略梯度的深入探讨
研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架,并提出了对最先进方法的细粒度分析。结果表明,深度策略梯度算法的行为经常偏离其驱动框架所预测的行为,这表明了我们对当前方法的了解不足,并提示需要超越当前基准中心的评估方法。
PDF
6 years ago
Prev
Next