决策理论引导下的深度强化学习快速学习

Feb, 2024

决策理论引导下的深度强化学习快速学习

Decision Theory-Guided Deep Reinforcement Learning for Fast Learning

Zelin Wan, Jin-Hee Cho, Mu Zhu, Ahmed H. Anwar, Charles Kamhoua...

TL;DR通过 Decision Theory-guided Deep Reinforcement Learning（DT-guided DRL）的新方法，解决了 DRL 中的冷启动问题，提高了代理在复杂环境中的初始性能和稳健性，使学习过程更加高效可靠。通过解决两个主要问题的情景：杆车和迷宫导航挑战，实验结果表明 Decision Theory 的整合不仅为 DRL 代理提供有效的初始指导，而且在特征较大和复杂的环境中促进了更加结构化和明智的探索策略。实验结果显示，与常规的 DRL 相比，DT-guided DRL 能够提供更高的奖励。尤其是在训练的初始阶段，DT-guided DRL 的累积奖励增加了 184%。此外，即使在达到收敛后，它的性能仍然优于标准的 DRL，在大型迷宫问题中获得了多达 53% 的额外奖励。DT-guided DRL 在缓解 DRL 的基本挑战方面代表了一种进步，通过利用人类（设计者）知识所得到的函数来为进一步研究打下了基础。

Abstract

This paper introduces a novel approach, Decision Theory-guided Deep Reinforcement Learning (DT-guided DRL), to address the inherent cold start problem in DRL. By integrating decision theory principles, DT-guided DRL enhances agents' initial performance and robustness in complex environ

decision theory-guided deep reinforcement learning cold start problem robustness convergence large maze problems

发现论文，激发创造

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

基于深度强化学习的战略对话管理

本研究成功应用深度强化学习 (DRL) 训练具备谈判能力的智能策略代理程序，实验表明该程序与由人工设计的规则、随机等算法相比，获胜率提高至 53%。

Nov, 2015

视频游戏中深度强化学习综述

本文综述了深度强化学习 (DRL) 的进展，包括基于价值、基于策略和基于模型的算法，并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。

Dec, 2019

深度强化学习解决管理问题：迈向大型管理模式

我们引入了一种深度强化学习 (DRL) 方法来解决包括库存管理、动态定价和推荐等管理问题。这种 DRL 方法有潜力基于特定的变压器神经网络结构构建一个大型管理模型，从而为各种管理任务提供一种人工通用智能范式。我们的方法能够统一框架下解决问题，考虑不同任务之间的相互关系。实验结果验证了我们基于 DRL 的框架在复杂和动态的商业环境中的有效性。这项工作为 DRL 在管理问题中的应用开辟了新的道路，突显了其改革传统商业管理的潜力。

Mar, 2024

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

基于图卷积的深度强化学习在混合交通环境下的多智能体决策

本研究提出了一种利用图神经网络和深度强化学习相结合的图强化学习方法，以提高自主车辆互动交通场景下的决策生成精度。在实验验证中，该方法能够提取交互情景特征，并生成更好的合作行为。

Jan, 2022

深度强化学习简介

介绍了深度强化学习的模型、算法和技术，着重讨论与泛化相关的方面以及深度强化学习在实际应用中的使用。

Nov, 2018

IBMDP 中决策树策略学习的演员 - 评论算法的局限性

AI 模型的可解释性使用户能够建立对这些 AI 的信任。我们展示了通过深度强化学习学习决策树的一个方法，从而通过透明地显示输入的关键特征来实现模型的解释性。

Sep, 2023