RAMario: 蛇形算法的实验方法 -- 马里奥的强化学习
该论文提出了一种名为 REPTILE 的自适应软件系统的通用框架,它完全采用主动方式,并依赖于基于深度强化学习的代理程序来响应事件,称为新奇性,这些新奇性可能影响系统的预期行为。该框架考虑两种类型的新奇性:与环境相关的和与物理架构本身相关的,预测出这些新奇性,提取出环境的时间变化模型,并使用适当的马尔可夫决策过程来处理实时设置,此外,我们的 RL 代理的架构会根据可能采取的行动进化。
Mar, 2022
该研究提出并比较了一种优化超级马里奥兄弟(SMB)环境的新方法,其中控制分为遗传算法(MarioGA)和神经进化(MarioNE)两种方法,通过学习使用这些技术进行游戏并优化一系列约束,包括收集硬币和完成关卡,从而提供了一种高效完成 SMB 关卡的方法。
Dec, 2023
研究了在多人游戏环境中采用强化学习 (RL) 和深度学习的方法,成功训练了一个超越人类专业玩家的自适应智能体,成果在多人视频游戏环境中具有里程碑意义。
Feb, 2017
该研究提出了一种新方法,即利用少量的突变规则来动态演化循环神经网络的结构,其结果表明,这种方法可以在大多数情况下匹配或超过梯度下降方法的性能,同时使用数量级更少的参数,该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。
Apr, 2023
介绍了新的学习环境 RLE,它可以在多种游戏机上运行,并且兼容 Python 和 Torch。由于较高的复杂度和多样性,SNES 游戏给当前的算法带来了很大的挑战。
Nov, 2016
提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
Dec, 2018
本研究采用 “Flappy Bird” 游戏环境,对比 NeuroEvolution of Augmenting Topologies (NEAT) 算法和强化学习算法在人工智能代理环境下的表现,探讨具有不同初始人工智能代理种群的算法性能。
Jul, 2022
本文提出了一种改进的深度强化学习方法,使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理,避免了需要额外环境信息的需求,从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。
Jan, 2023
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
该研究介绍了一种基于 Sonic the Hedgehog 的强化学习基准测试,旨在测试迁移学习和小样本学习算法在强化学习领域的性能,并在该基准测试上提出并评估了一些基准算法。
Apr, 2018