atari | BriefGPT - AI 论文速递

关键词atari

搜索结果 - 12

SoftTreeMax: 通过树搜索实现策略梯度的指数级方差减少
本文提出一种新型的神经网络方案 SoftTreeMax，通过树形计划从多个层面减轻策略梯度算法中的大方差、高样本复杂度问题，实现在 Atari 游戏中优异的性能表现。
PDFa year ago
用噪声替换先验提高自举 DQN 的多样性
通过从高斯分布中采样引入噪音，本研究探讨了用噪声替换先验知识来增加 Bootstrapped Deep Q-Learning 中多样性的可能性，并在 Atari 基准上实验，将该算法与原始算法及其他相关算法进行了比较，结果表明该修改方案显著
PDF2 years ago
CoBERL: 强化学习的对比学习 BERT
该论文提出了通过使用新的对比度损失和混合 LSTM-transformer 架构组合来改进 Reinforcement Learning (强化学习) 代理的数据效率，从而实现在广泛领域内对像素的高效、稳健学习的 Contrastive B
PDF3 years ago
Muesli: 综合政策优化的改进
该论文提出一种新的政策更新方式 Muesli，它将正则化策略优化与模型学习结合作为辅助损失函数。该方法在 Atari 上取得了与 MuZero 相媲美的性能，而没有使用深度搜索。同时其计算速度与基线模型相当，并在连续控制和 9x9 围棋等领
PDF3 years ago
ICLR利用局部空间可预测性进行无监督目标关键点学习
提出一种基于物体关键点的表示学习方法 PermaKey，可用于 Atari 游戏中的强化学习任务，学习到对应于最显著物体部分的关键点，并且在一定程度上能够抵御视觉干扰。
PDF4 years ago
ICLR自我预测表示法的数据有效强化学习
本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了
PDF4 years ago
ICLR结合 Q 学习和搜索及摊销值估计
SAVE 是一种将模型无关的 Q - 学习与模型基于 Monte-Carlo 树搜索相结合的方法，它能够通过引导搜索来优化状态 - 动作值，从而在不增加计算成本的情况下提高学习性能，该方法已应用于物理推理任务和 Atari 游戏的智能体中展
PDF5 years ago
通过 GPU Atari 模拟加速强化学习
CuLE 是一种用于开发深度强化学习算法的 CUDA 版 Atari Learning Environment，通过 GPU 并行化运行数千个游戏，直接将帧渲染到 GPU，以规避有限的 CPU-GPU 通信带宽瓶颈，最高可在单个 GPU 上
PDF5 years ago
演化策略作为可扩展替代强化学习的方案
使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习
PDF7 years ago
使用无监督辅助任务的强化学习
该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Lab
PDF8 years ago
使用深度强化学习和人类检查点重现玩雅达利游戏
这篇文章提出了一种使用深度强化学习来学习玩最困难的 Atari 2600 游戏的新方法，即基于人类游戏经验的检查点回放，并使用卷积神经网络作为模型，其结果显著优于先前的学习方法和随机玩家，同时提出了一种使用人类游戏经验来训练深度强化学习智能
PDF8 years ago
NIPS深度关注递归 Q 网络
通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。
PDF9 years ago