具有显式上下文表示的深度强化学习

Oct, 2023

具有显式上下文表示的深度强化学习

Deep Reinforcement Learning with Explicit Context Representation

Francisco Munguia-Galeano, Ah-Hwee Tan, Ze Ji

TL;DR该研究提出了一种离散环境中的Iota显式上下文表示 (IECR) 框架，通过提取上下文关键帧 (CKFs) 实现了从环境中学习，并使用新算法在五个离散环境中取得了显著优于现有算法的收敛效果。

Abstract

reinforcement learning (RL) has shown an outstanding capability for solving complex computational problems. However, most RL algorithms lack an explicit method that would allow learning from contextual information

发现论文，激发创造

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与Q函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对DRRN进行评估，表现优于其他深度Q学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015

宽松的多智能体深度强化学习

本研究将宽容度应用于多智能体深度强化学习中，通过控制弱化负面策略更新所用的温度值，引入了乐观主义来更新价值函数，从而促进了协作，并在长期规划进程中很可能收敛到最优策略。实证评估表明，相比于标准和调度HDQN代理，LDQN代理更有可能在具有随机奖励的任务中收敛到最优策略。

Jul, 2017

多智能体系统的深度策略推断Q网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

代价高昂特征的分层多实例数据分类

通过远程服务对恶意网络域名进行分类，并基于具有层次结构的多实例数据的树进行分析，使用分类成本特征、多实例学习和分层决策空间分解的方法来训练强化学习策略以最大化准确性，同时限制成本，能够有效处理结构复杂的数据。

Nov, 2019

强化学习中的结构：综述与开放问题

为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战，该论文提出了一种集成结构信息的方法来提高RL算法的性能和效率，并将结构信息的不同模式进行了分类，并提供了设计模式方面的新视角。

Jun, 2023

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在Dark Room和Dark Key-to-Door环境中，我们的方法相比于最佳策略改进了2倍。

Dec, 2023

强化学习方法将压缩上下文整合到知识图谱中

该研究提出了一种基于强化学习的方法，利用深度 Q 网络增强知识图谱中上下文信息的整合过程。实验结果表明，该方法在不同的标准知识图谱数据集上优于传统技术，准确实现了上下文整合，凸显了强化学习在增强和管理知识图谱方面的潜力和有效性。

Apr, 2024

上下文决策变换器: 通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

DEAR：无需重构的强化学习中解耦环境和智能体表示

强化学习算法可以通过视觉观察学习机器人控制任务，但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率，提出了一种名为DEAR的新方法，通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示，在强化学习目标上以这些表示为辅助损失，以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了DEAR：Distracting DeepMind控制套件和Franka Kitchen操纵任务。我们的研究结果表明，DEAR在样本效率方面超越了最先进的方法，通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明，将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。

Jun, 2024