BriefGPT.xyz
Ask
alpha
关键词
q-learning objective
搜索结果 - 2
用内在的恐惧解决强化学习的西西弗斯诅咒
该研究通过学习奖励塑造技术,引入内在的恐惧机制,保护深度强化学习代理人避免周期性的灾难状态,证明了其鲁棒性和学习速度优势,并在实验中成功解决了多种问题。
PDF
8 years ago
使用深度强化学习玩射击游戏
本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型,其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。
PDF
8 years ago
Prev
Next