深度终身强化学习的统计上下文检测

May, 2024

深度终身强化学习的统计上下文检测

Statistical Context Detection for Deep Lifelong Reinforcement Learning

Jeffery Dick, Saptarshi Nath, Christos Peridis, Eseoghene Benjamin, Soheil Kolouri...

TL;DR在线的深度强化学习环境中，使用最优输运方法中的距离度量来测量过去和当前数据流中数据点组合之间的距离，并使用经过适应的 Kolmogorov-Smirnov 计算进行统计测试，以为经验序列分配标签。任务检测和策略部署的结合允许优化终身强化学习代理，无需提供任务标签的 oracle。该方法在两个基准测试中得到验证，结果表明与相关上下文检测算法相比，最优输运统计方法为在线上下文检测和奖励优化提供了可解释且合理的程序。

Abstract

context detection involves labeling segments of an online stream of data as belonging to different tasks. task labels are used in lifelong learning algorithms to perform consolidation or other procedures that pre

context detection online deep reinforcement learning task labels optimal transport methods lifelong reinforcement learning

发现论文，激发创造

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

FOCAL：通过距离度量学习和行为规范实现高效完全离线的元强化学习

本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法，构建一种全新的、终端到终端的离线元元强化学习算法，以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战，并将该算法应用于多种元强化学习基准测试中，展示了较为出色的性能。

Oct, 2020

通过概率上下文变量实现高效的离线元强化学习

本文提出了一种离线元强化学习算法，通过在线概率过滤隐含的任务变量来推断如何从少量经验中解决新任务，实现了结构化和有效的探索。该方法在几个元 - 强化学习基准测试中，比先前算法在样本效率和渐近性能方面提高了 20-100 倍。

Mar, 2019

渐进上下文动态自适应连续强化学习

本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Sep, 2022

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

不确定环境中的安全强化学习

在实际部署中的机器学习算法时，确保安全是一项重要的资产。现有的安全学习方法通常考虑连续变量，即回归任务。然而，在实践中，机器人系统还受到离散的、外部的环境变化的影响，例如必须携带一定重量的物体或在冻结、潮湿或干燥的表面上操作。这些影响可以建模为离散的上下文变量。在现有的文献中，如果考虑了这些上下文，大多数情况下是假设为已知的。在这项工作中，我们放弃了这个假设，并展示了当我们不能直接测量上下文变量时如何进行安全学习。为了实现这一点，我们针对多类分类导出了频率学派的保证，允许我们从测量中估计当前的上下文。此外，我们提出了一种通过实验识别上下文的方法。我们讨论了在哪些条件下我们能保留理论保证，并通过使用不同权重的相机测量的 Furuta 摆作为上下文对我们的算法的适用性进行了演示。

Jan, 2024