BriefGPT.xyz
大模型
Ask
alpha
关键词
td-learning
搜索结果 - 3
TD-learning 下表示动态的更好理解
探讨了 TD-learning 对时间序列中状态表示的影响,特别是在环境可逆的情况下,TD-learning 可以严格减少价值近似误差,同时将其与转移矩阵的谱分解相联系,并用随机生成的奖励拟合多个值函数来辅助表征学习。
PDF
a year ago
反步时间差分学习
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
PDF
a year ago
IJCAI
基于石板的推荐系统的强化学习:可行的分解和实用方法论
该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法,通过分解价值函数,考虑了物品组合效应,并实验证明了该方法的可行性和扩展性。
PDF
5 years ago
Prev
Next