RAMario: 蛇形算法的实验方法 -- 马里奥的强化学习

May, 2023

RAMario: 蛇形算法的实验方法 -- 马里奥的强化学习

RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement Learning for Mario

Sanyam Jain

TL;DR本论文探讨了使用 Reptile 算法的实验方法进行增强学习，训练神经网络玩超级马里奥兄弟游戏。结果表明，该算法提供了一种前景可观的机器学习方法，具有与其他两个算法相当甚至更好的性能，特别是在移动代理进行了 100 万次训练时，这算法在游戏中的表现明显优于 PPO 和 DQN 算法。

Abstract

This research paper presents an experimental approach to using the Reptile algorithm for reinforcement learning to train a neural network to play Super Mario Bros. We implement the →

reptile algorithm reinforcement learning neural network super mario bros video game ai

发现论文，激发创造

REPTILE: 一种主动实时深度强化学习自适应框架

该论文提出了一种名为 REPTILE 的自适应软件系统的通用框架，它完全采用主动方式，并依赖于基于深度强化学习的代理程序来响应事件，称为新奇性，这些新奇性可能影响系统的预期行为。该框架考虑两种类型的新奇性：与环境相关的和与物理架构本身相关的，预测出这些新奇性，提取出环境的时间变化模型，并使用适当的马尔可夫决策过程来处理实时设置，此外，我们的 RL 代理的架构会根据可能采取的行动进化。

Mar, 2022

优化受限环境中的马里奥冒险

该研究提出并比较了一种优化超级马里奥兄弟（SMB）环境的新方法，其中控制分为遗传算法（MarioGA）和神经进化（MarioNE）两种方法，通过学习使用这些技术进行游戏并优化一系列约束，包括收集硬币和完成关卡，从而提供了一种高效完成 SMB 关卡的方法。

Dec, 2023

使用深度强化学习击败世界级的超级 Smash Bros

研究了在多人游戏环境中采用强化学习 (RL) 和深度学习的方法，成功训练了一个超越人类专业玩家的自适应智能体，成果在多人视频游戏环境中具有里程碑意义。

Feb, 2017

控制任务中的循环架构的神经进化

该研究提出了一种新方法，即利用少量的突变规则来动态演化循环神经网络的结构，其结果表明，这种方法可以在大多数情况下匹配或超过梯度下降方法的性能，同时使用数量级更少的参数，该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。

Apr, 2023

在复古学习环境中玩 SNES

介绍了新的学习环境 RLE，它可以在多种游戏机上运行，并且兼容 Python 和 Torch。由于较高的复杂度和多样性，SNES 游戏给当前的算法带来了很大的挑战。

Nov, 2016

从单次演示中学习 Montezuma's Revenge

提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法，该方法通过最大化奖励来训练代理，缩短了学习时间，降低了任务复杂度。

Dec, 2018

使用 NEAT 和强化学习无限制地玩 2D 游戏

本研究采用 “Flappy Bird” 游戏环境，对比 NeuroEvolution of Augmenting Topologies (NEAT) 算法和强化学习算法在人工智能代理环境下的表现，探讨具有不同初始人工智能代理种群的算法性能。

Jul, 2022

一种内存高效的蛇游戏自主代理深度强化学习方法

本文提出了一种改进的深度强化学习方法，使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理，避免了需要额外环境信息的需求，从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。

Jan, 2023

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

Gotta Learn Fast: 强化学习泛化新基准

该研究介绍了一种基于 Sonic the Hedgehog 的强化学习基准测试，旨在测试迁移学习和小样本学习算法在强化学习领域的性能，并在该基准测试上提出并评估了一些基准算法。

Apr, 2018