离散 Markov 语境演变下的强化学习

ICLRFeb, 2022

离散 Markov 语境演变下的强化学习

Reinforcement Learning in Presence of Discrete Markovian Context Evolution

Hang Ren, Aivar Sootla, Taher Jafferjee, Junxiao Shen, Jun Wang...

TL;DR本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Abstract

We consider a context-dependent reinforcement learning (RL) setting, which is characterized by: a) an unknown finite number of not directly observable contexts; b) abrupt (discontinuous) context changes occurring during an episode; and c) Markovian context evolution. We argue that this

reinforcement learning bayesian inference markovian process hierarchical dirichlet process policy learning

发现论文，激发创造

具有历史依赖的动态环境下的强化学习

本研究介绍了一种新的强化学习框架：动态上下文马尔可夫决策过程（DCMDPs），着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换，使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展，主要探讨了针对推荐任务变化的用户行为的模式研究

Feb, 2023

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

渐进上下文动态自适应连续强化学习

本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Sep, 2022

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法 AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中，我们的方法相比于最佳策略改进了 2 倍。

Dec, 2023

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

基于马尔可夫决策过程、实体嵌入和代理集成的上下文感知型代理策略组合

我们提出了一种基于仿真的新方法，通过知识图和实体嵌入来表示异构上下文，并使用并行运行的代理集合对需求进行上下文感知型策略的组合。在 “Virtual Home” 数据集上的评估表明，需要在不同上下文之间无缝切换的代理可以即时请求组合策略，以成功完成适应上下文的活动，而无需通过冗长的训练步骤和场景学习这些策略，与应用强化学习的代理不同。

Aug, 2023

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

深度终身强化学习的统计上下文检测

在线的深度强化学习环境中，使用最优输运方法中的距离度量来测量过去和当前数据流中数据点组合之间的距离，并使用经过适应的 Kolmogorov-Smirnov 计算进行统计测试，以为经验序列分配标签。任务检测和策略部署的结合允许优化终身强化学习代理，无需提供任务标签的 oracle。该方法在两个基准测试中得到验证，结果表明与相关上下文检测算法相比，最优输运统计方法为在线上下文检测和奖励优化提供了可解释且合理的程序。

May, 2024

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019