使用深度强化学习学习状态表示以进行查询优化
本文提出了一种适合于迭代模型增强策略,即使在具有复杂图像观测的情况下,学习简单动态和成本模型的表示方法,使得基于线性二次调节器(LQR)的基于模型的 RL 方法可用于具有图像观测的系统, 并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法,发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能,同时比无模型 RL 更高效。
Aug, 2018
本文介绍了一种名为 SALE 的新方法,用于学习嵌入,以从低级状态中进行有效的表示学习,并将其与一种自适应检查点方法相结合,形成 TD7 算法,用于连续控制问题,并在 OpenAI gym 基准任务上表现出了显着提高。
Jun, 2023
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
介绍了一种基于神经网络的查询重构系统,使用强化学习训练神经网络,动作是选择术语以建立重构查询,回报是文档召回率,我们在三个数据集上评估了我们的方法,相对 Recall 方面有 5-20% 的改进。此外,我们提供了一种简单方法来估算模型在特定环境中的保守上限性能,并验证存在很大的改进空间。
Apr, 2017
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
深度强化学习是 AI 领域的一项重大进展,可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法,包括基于价值和基于策略的方法,并重点介绍了深度神经网络在强化学习中的独特优势,最后描述了该领域内的几个当前研究方向。
Aug, 2017
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016