一天内学会玩：通过最优收敛加速深度强化学习

Nov, 2016

一天内学会玩：通过最优收敛加速深度强化学习

Learning to Play in a Day: Faster Deep Reinforcement Learning by Optimality Tightening

Frank S. He, Yang Liu, Alexander G. Schwing, Jian Peng

TL;DR论文提出一种新的强化学习算法，将深度 Q-learning 与约束优化方法相结合，以加强最优性并促进更快的奖励传播，并得出了在 Arcade Learning Environment 中的性能评估结果，表明该方法能够显著缩短训练时间并提高准确性。

Abstract

We propose a novel training algorithm for reinforcement learning which combines the strength of deep q-learning with a constrained optimization

reinforcement learning deep q-learning constrained optimization reward propagation training time

发现论文，激发创造

神经网络优化学习

本文探索一种新的用于训练浅层神经网络的优化算法，该算法使用重新强化学习的方法，可以解决高维随机优化问题，即使在梯度和神经网络架构的随机性变化时，该算法训练出的优化算法始终优于其他已知的优化算法，能够成功将 MNIST 神经网络问题泛化到在多种不同数据集上进行的神经网络问题。

Mar, 2017

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

通过深度强化学习实现通用量子控制

提出一种新的量子控制框架，通过在强化学习智能体的训练环境中加入控制噪声，利用强化学习技术优化量子计算的速度和保真度以及对泄漏和随机控制误差的抗扰性，最终取得了一定的优化成果。

Mar, 2018

人类速度：带有行动延迟的深度强化学习

该论文研究解决游戏人工智能的反应延迟问题，通过给智能体一个神经预测模型滞后，展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。

Oct, 2018

使用深度强化学习学习状态表示以进行查询优化

研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Mar, 2018

一日学车

本研究首次将深度强化学习应用于自动驾驶，通过模型自主探索学习一个仅需单目图像为输入的车道跟踪策略，并采用单一、易于获取的奖励措施：在无安全司机控制下行驶的距离。我们使用连续的、无模型的深度强化学习算法，并在车上执行所有探索和优化过程，为自动驾驶开发了一个新的框架，摆脱了对定义逻辑规则、制图和直接监督的依赖，同时也探讨该方法面对更广泛自动驾驶任务时的挑战和机会。

Jul, 2018

DRiLLS: 深度强化学习用于逻辑综合

提出了一种基于强化学习的方法，自动化优化逻辑综合过程，通过训练 Actor Critic（A2C）智能体来实现无人工干预的设计优化，取得了较好的优化结果。

Nov, 2019

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

基于深度强化学习的自动规划中的目标选择学习

提出了一种具备学习选择子目标的规划和行动架构，可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构，并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明，与其他方法相比，该模型在计划质量（计划长度）和时间要求方面表现更好，既比标准的深度 Q 学习更具样本效率，又可以更好地泛化到不同的关卡，同时较现有最先进的自动规划器缩短问题解决时间，但相应地得到的计划行动增加了 9%。

Jun, 2024

在公园散步：学习无模型强化学习在 20 分钟内行走

研究展示了在现实世界中通过深度强化学习和机器学习算法，结合先进的机器人控制器，可以在仅 20 分钟内在多个室内和户外地形上学习四足动物的步态，以及对于设计决策的模拟环境评估。

Aug, 2022