强化学习中的知识迁移无效行为学习
本研究论文中,我们提出了三种连续动作屏蔽方法,以精确地将动作空间映射到与状态相关的相关动作集合,从而确保只有相关动作被执行,提高增强学习代理的可预测性,并使其在安全关键应用中得到应用。实验结果显示,这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。
Jun, 2024
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
Dec, 2023
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消除对行为数量的依赖,并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验,证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。
Dec, 2023
提出了一种智能的 Action Pick-up 算法,用于从新的和未知的动作中自主选择最有可能提高性能的有价值的动作,它利用之前的最优策略提供有用的知识和经验,具有比基线更优的学习效率。
Apr, 2023
本文提出了一种基于收益的策略转移算法 APT-RL,用于在固定领域环境中的强化学习,通过使用 “优势” 作为正则项,避免了启发式选择算法设计,并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架,实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法,并且比从零开始学习更加高效。
Nov, 2023
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。
Apr, 2021
通过分析理论并提出一个新的冗余动作过滤机制,我们展示了一种用于策略优化的简单而高效的方法,它通过估算状态分布之间的距离构建相似度因子,并结合修改后的逆模型来避免在高维状态空间中进行大量计算。我们在高维、像素输入和随机问题上进行了广泛实验,证明了我们方法的卓越性能。
Dec, 2023