基于混沌的深度增强学习与 TD3 算法

May, 2024

基于混沌的深度增强学习与 TD3 算法

Chaos-based reinforcement learning with TD3

Toshitaka Matsuki, Yusuke Sakemi, Kazuyuki Aihara

TL;DR混沌增强学习（Chaos-based reinforcement learning，CBRL）是一种通过内部混沌动力学驱动探索的方法，本研究将最新的深度强化学习算法之一，即双延迟深度确定性策略梯度算法（Twin Delayed Deep Deterministic Policy Gradients，TD3），引入到 CBRL 中并进行验证。TD3 在简单目标达成任务中作为学习算法有效，CBRL 代理可在学习过程中自主抑制探索行为并在环境变化时恢复探索，而且研究还发现强混沌性对于探索与开采之间的灵活切换产生负面影响。

Abstract

chaos-based reinforcement learning (cbrl) is a method in which the agent's internal chaotic dynamics drives exploration. This approach offers a model for considering how the biological brain can create variabilit

chaos-based reinforcement learning cbrl twin delayed deep deterministic policy gradients td3 exploration and exploitation

发现论文，激发创造

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Mar, 2023

提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调

该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。

Nov, 2022

使用深度强化学习控制混沌系统

本文利用基于模型的强化学习算法，结合深度神经网络，针对一维 Kuramoto-Sivashinsky 方程描述的非线性混沌系统进行控制，通过局部测量得到的限制性传感器数据指引控制策略，实现了混沌状态下目标状态的稳定控制，并有望在复杂的液体系统控制领域中得到广泛应用。

Jun, 2019

Taylor TD-learning

介绍了一种基于模型的强化学习框架 Taylor TD，通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题，并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。

Feb, 2023

通过有限的演示学习复杂的操作技能的确定性策略

提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Mar, 2023

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架，并提出了一种基于 dropout 网络的新方法 BADDr，旨在解决 BRL 方法在拓展性上存在的瓶颈，并证实其在处理规模较大的情况时的有效性。

Feb, 2022

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019

R^3：面向自主机器人的设备端实时深度强化学习

本文介绍了 R^3，一种用于管理实时设备上 DRL 训练中的时间、内存和算法性能的整体解决方案。R^3 通过使用动态批处理大小和高效内存管理来优化时间，通过启发式分析和动态调整内存资源预留的运行时协调器，协同解决设备上 DRL 训练中的权衡问题，并实现了在不同平台上实时应用的一致延迟性能和时间可预测性。

Aug, 2023

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021