BarlowRL: 针对数据效率的强化学习的 Barlow 双胞胎

Aug, 2023

BarlowRL: 针对数据效率的强化学习的 Barlow 双胞胎

BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning

Omer Veysel Cagatan

TL;DRBarlowRL 结合 Barlow Twins 自监督学习框架与 DER 算法，是一种高效利用数据的强化学习代理，在 Atari 100k 基准测试中表现优于 DER 和其对比算法 CURL。BarlowRL 通过在整个空间内强制信息传播来避免维度趋于坍缩，帮助 RL 算法利用均匀分布的状态表示，从而取得显著的性能提高。结合 Barlow Twins 与 DER 实现了数据效率的提升，并在 RL 任务中取得了卓越的性能，展示了将自监督学习技术整合到改进 RL 算法中的潜力。

Abstract

This paper introduces barlowrl, a data-efficient reinforcement learning agent that combines the barlow twins →

barlowrl data-efficient reinforcement learning agent barlow twins self-supervised learning framework der (data-efficient rainbow) algorithm

发现论文，激发创造

通过数字孪生实现增强式强化学习资源管理：机遇、应用和挑战

提出了一种基于数字孪生增强的强化学习框架，旨在优化网络资源管理的性能和可靠性，此框架在物理网络中应用传统的强化学习面临多个统一挑战，包括有限的探索效率、收敛速度缓慢、长期性能较差以及在探索阶段的安全问题。

Jun, 2024

一种可扩展和可并行化的数字孪生框架，用于多智能体强化学习系统的可持续的模拟到现实过渡

本文提出了一种可持续的多智能体深度强化学习框架，能够按需选择性地扩展并行训练工作负载，并利用最小的硬件资源将训练策略从模拟转移到真实环境中。我们引入了 AutoDRIVE 生态系统作为一种使合作和竞争的多智能体强化学习策略能够从模拟环境转移到现实环境中进行训练、部署和传输的数字孪生框架。在研究中，我们首先探讨了 4 个合作车辆（Nigel）在单个智能体和多智能体学习环境中共享有限状态信息时的交叉路口问题，并采用了共同的策略方法。然后，我们使用个体策略方法研究了 2 辆车（F1TENTH）的对抗自主赛车问题。在实验中，我们采用了分散式学习架构，能够在不确定性环境中进行稳健的策略训练和测试。智能体只能观察到有限的观测空间，并且只能采样满足运动动力学和安全约束的控制动作。我们以定量指标和定性评述的方式报告了两个问题陈述的实验结果，包括训练和部署阶段。我们还讨论了用于加速多智能体强化学习训练的智能体和环境并行化技术，并分析了它们的计算性能。最后，我们使用提出的数字孪生框架展示了从模拟环境到真实环境中训练策略的资源感知过渡。

Mar, 2024

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

多无人机网络的低成本增强训练中不完美数字孪生辅助

通过引入数字孪生技术来减少无人机网络实际训练的成本，该方法使用两个级联神经网络进行优化，同时保证了训练性能。

Oct, 2023

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

近端蒸馏进化强化学习

本文提出一种新的算法 Proximal Distilled Evolutionary Reinforcement Learning (PDERL)，通过对深度神经网络进行基于学习的变异操作，弥补了简单遗传编码的缺陷，优于 Evolutionary Reinforcement Learning (ERL) 和两种现有的强化学习算法。

Jun, 2019

数字孪生的保守和风险意识离线多智能体强化学习

提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

Feb, 2024

REBOOT：重用数据用于高效的实际情境灵巧操纵

我们介绍了一种用于学习灵巧操作技能的高效系统，通过整合最近在样本有效强化学习和重放缓冲引导方面的进展，利用来自不同任务或物体的数据作为训练新任务的起点，显著提高学习效率，同时通过基于模仿的拾取策略和学习奖励函数，消除了手动重置和奖励工程的需求，并在四指机械手上的真实环境中展示了重用先前数据作为重放缓冲初始化的好处，例如在真实世界中快速获得复杂操作技能。

Sep, 2023

基于隐式和双向课程的无演示自主强化学习

提出了一种新的强化学习算法 -“隐式和双向课程算法”(IBC)，该算法能够在无需演示数据的情况下，通过辅助主体和双向目标课程实现自主学习，与现有的自主强化学习方法相比表现更好且具有更广泛的适用性。

May, 2023

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023