关键词atari 2600 video games
搜索结果 - 5
- 深度强化学习的期望强调痕迹学习
本文研究将强化权重与非连续、离线数据相结合以提高样本效率,同时在 Atari 2600 电子游戏上测试了新的 X-ETD(n)算法,证明了其可扩展性和广泛适用性。
- 强化学习中什么时候使用参数模型?
研究了参数模型和经验回放的共性和区别,探讨了何时以及如何在强化学习中使用参数模型,验证了使用经验回放算法生成虚拟转换来提高数据效率的假设,并在 Atari 2600 视频游戏中实现了最新数据效率的提升。
- AAAI用像素进行(几乎)实时规划
通过使用基于屏幕的计划方法,我们研究了 Atari 2600 视频游戏的规划问题,结果表明,该方法能够快速比较人类和机器学习方法的规划结果,并通过 IW (k) 算法的每一回,实现了几乎实时的在线规划。
- 在线元学习之并行算法竞赛
该研究提出了一种名为 OMPAC 的在线元学习算法用于调整强化学习算法中关键的元参数以提高效率,实验证明,该方法可以在 Atari 2600 视频游戏和 Tetris 的问题上实现优越的性能。
- 压缩与控制
本文提出了一种新的信息论政策评估技术,该技术将任何压缩或密度模型转化为相应的值估计,研究了该技术在 Atari 2600 视频游戏中的应用,发现该技术提供足够准确的价值估计来有效地进行政策控制,并指出该技术在规模化问题上具有潜在的应用前景。