使用深度强化学习学习状态表示以进行查询优化

Mar, 2018

使用深度强化学习学习状态表示以进行查询优化

Learning State Representations for Query Optimization with Deep Reinforcement Learning

Jennifer Ortiz, Magdalena Balazinska, Johannes Gehrke, S. Sathiya Keerthi

TL;DR研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Abstract

deep reinforcement learning is quickly changing the field of artificial intelligence. These models are able to capture a high level understanding of their environment, enabling them to learn difficult dynamic tasks in a variety of domains. In the →

deep reinforcement learning query optimization state transition function subqueries database field

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

Deep Reinforcement Learning 中的状态行为表示学习

本文介绍了一种名为 SALE 的新方法，用于学习嵌入，以从低级状态中进行有效的表示学习，并将其与一种自适应检查点方法相结合，形成 TD7 算法，用于连续控制问题，并在 OpenAI gym 基准任务上表现出了显着提高。

Jun, 2023

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

任务导向的强化学习查询重构

介绍了一种基于神经网络的查询重构系统，使用强化学习训练神经网络，动作是选择术语以建立重构查询，回报是文档召回率，我们在三个数据集上评估了我们的方法，相对 Recall 方面有 5-20% 的改进。此外，我们提供了一种简单方法来估算模型在特定环境中的保守上限性能，并验证存在很大的改进空间。

Apr, 2017

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

深度强化学习简要调查

深度强化学习是 AI 领域的一项重大进展，可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法，包括基于价值和基于策略的方法，并重点介绍了深度神经网络在强化学习中的独特优势，最后描述了该领域内的几个当前研究方向。

Aug, 2017

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016