多频率离线强化学习

Jul, 2022

Offline Reinforcement Learning at Multiple Frequencies

Kaylee Burns, Tianhe Yu, Chelsea Finn, Karol Hausman

TL;DR研究离线机器人数据的异构性，着重于不同控制频率下离线数据的学习，提出一种简单且有效的方法，通过对 Q 值更新速度的保持一致性平衡 Q 值传播，最终在三个模拟机器人控制问题中显著提高算法性能。

Abstract

Leveraging many sources of offline robot data requires grappling with the heterogeneity of such data. In this paper, we focus on one particular aspect of heterogeneity: learning from offline data collected at different control frequencies. Across labs, the discretization of controllers

offline robot data control frequencies offline reinforcement learning q-value updates simulated robotic control problems

发现论文，激发创造

机器人技能学习的动作量化离线强化学习

我们提出了一种自适应的行动量化方案，通过使用 VQ-VAE 学习状态条件的行动量化，避免了行动空间的指数爆炸问题，并通过离线强化学习方法在基准测试中改进了性能，同时在 Robomimic 环境中的复杂机器人操作任务中，离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。

Oct, 2023

互动强化学习中反馈频率对于机器人任务的影响量化

本文研究了交互反馈频率对强化学习在连续状态和动作空间的机器人任务中的影响，证明了随着机器人操作熟练度的提高应该改变反馈频率而不是坚持使用单一的最佳反馈频率。

Jul, 2022

学习低频运动控制，实现鲁棒和动态机器人运动

通过在真实机器人 ANYmal C 上执行 8-200Hz 的深度强化学习基于动作控制策略，我们展示了使用低频控制某种程度上可以实现比高频控制更加鲁棒和动态的机器人运动，这在不考虑动力学随机化或作用建模的情况下即可成功进行模拟到实物的转移。

Sep, 2022

基于混合数据集的无线网络优化的离线强化学习

本研究采用离线强化学习算法解决无线电资源管理问题，通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案，表明在适当混合数据集的情况下，离线强化学习能够产生接近最优的强化学习策略。

Nov, 2023

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

机器人基于离线数据的终身学习中的遗忘和不平衡问题

本文介绍了在生命周期内，机器人应该如何快速适应不断变化的环境，在强化学习领域下提出了离线蒸馏管道算法，解决了传统算法在新旧环境中表现的困境以及在多种环境中训练数据失衡等问题，并通过模拟仿生机器人步行任务的实验进行了检验。

Apr, 2022

通过行为持久性在批强化学习中控制频率自适应

本文介绍了一种基于动作重复的新算法 PFQI，旨在增强强化学习算法的性能，在理论上和实验中得到验证。

Feb, 2020

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019