强化学习的大规模检索

Jun, 2022

Large-Scale Retrieval for Reinforcement Learning

Peter C. Humphreys, Arthur Guez, Olivier Tieleman, Laurent Sifre, Théophane Weber...

TL;DR本文探讨了一种不同于深度强化学习的方法，通过利用大规模上下文情境的数据库搜索来支持参数计算，实现直接学习以利用相关信息指导输出，并且用此方法提高了离线与在线强化学习智能体的表现

Abstract

Effective decision making involves flexibly relating past experiences and relevant contextual information to a novel situation. In deep reinforcement learning (RL), the dominant paradigm is for an agent to amortise information that helps decision making into its network weights via gradient descent on training losses. Here, we pursue an alternative approach

deep reinforcement learning database lookups offline rl expert demonstration states game-play performance

发现论文，激发创造

通过自然语言指导的语义探索提高深度强化学习的效率

用检索式方法通过神经网络编码，选择性、高效地与 oracle 进行交互，并使用 oracle 的答案更新 agent 的策略和值函数，从而在强化学习任务中大幅提高效率。

Sep, 2023

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

开放式任务空间中的人类时间尺度适应

本文介绍了一种训练 RL 代理器的方法，通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表，该代理器可以快速适应开放式的 3D 问题，并具有自适应性。

Jan, 2023

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023

密集检索作为大空间决策的间接监督

通过将大空间的判别式自然语言理解任务重新构造为学习检索任务，采用密集检索方法来解决大决策空间的预测问题，提高了预测的泛化能力和决策表示的语义意义。

Oct, 2023

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

使用深度强化学习学习状态表示以进行查询优化

研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Mar, 2018

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016