- 高效离线强化学习:批评者至关重要
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中 - 走向实际效率:自主机器人在自由漂移移动目标的预捕获中的强化学习中领域随机化
利用深度强化学习的控制方法,在微重力条件下解决机器人的抓取前阶段的复杂挑战,通过试错学习,消除了手动设计特征的必要性,使机器人能够学习抓取策略。
- 脱机增强型演员 - 评论者:在深度离线策略强化学习中自适应混合优化历史行为
基于强化学习的离策略算法 OBAC 通过对值进行比较,识别出性能表现优越的线下策略,并将其作为自适应约束条件,以保证更强的策略学习表现。实验结果表明,在样本效率和渐近性能方面,OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方 - 策略梯度与主动重要性抽样
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
- ICLRDuolando:跟随者 GPT 结合离策略强化学习的舞蹈伴奏
我们引入了一个新颖的任务,即 3D 舞蹈生成领域的舞蹈伴奏,要求生成与领舞者的动作和音乐节奏相同步的舞蹈伴舞者的响应性动作。为了支持这一任务,我们首先构建了一个大规模且多样化的舞蹈互动数据集,通过记录约 117 分钟的专业舞者表演来实现。为 - Vlearn:基于高效状态 - 价值函数估计的离策学习
提出了一种名为 Vlearn 的新型离策略信任区域优化方法,通过只利用一个状态值函数作为评论家来克服现有方法的多个限制,在处理高维动作空间时解决了计算上的挑战。同时,通过消除对状态 - 动作 - 值函数的需求,Vlearn 简化了学习过程, - 强化学习的苦涩教训:行动者 - 评论家中的高估、过拟合和可塑性
通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。
- 使用反向经验回放方法对软性蛇形机器人的无模型强化学习
我们提出了一种新颖的技术 Back-stepping Experience Replay (BER),它与任意的离线策略强化学习算法兼容。BER 旨在增强具有近似可逆性的系统的学习效率,减少对复杂奖励塑造的需求。该方法通过后退传递来构建反向 - 通过 Q-Score 匹配从奖励中学习扩散模型策略
通过利用扩散模型的评分结构与 Q 函数的动作梯度之间的链接结构,我们提出了一种新的学习扩散模型策略的方法,称为 Q-score 匹配,并对该方法提供了理论上的证明。我们在模拟环境中进行实验,以证明我们提出的方法的有效性,并与流行的基准进行比 - 实验间重演:离策略强化学习的自然扩展
利用回放数据来增强稳定性和数据效率是离轨策略强化学习的主要机制。我们提出了一种简单而有效的框架,可将回放应用于多个实验,通过最小程度的调整强化学习工作流程,显著改善控制器性能和研究迭代时间。
- 离线强化学习的预测离策略 Q 学习(POP-QL)的稳定化
稳定离线策略 Q 学习的新方法,通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误,能在标准基准测试中竞争性地表现,并在数据收集策略明显次优的任务中胜过竞争方法。
- RLIF:交互仿真学习作为强化学习
通过使用强化学习和用户干预信号本身作为奖励函数,我们提出了一种新的方法来改进交互式模仿学习,克服了潜在次优人类专家的限制,并在挑战性的控制问题中具有较好的性能。
- 语言模型的可控解码
我们提出了一种控制解码(CD)的创新离策略强化学习方法,以控制语言模型的自回归生成,以实现高回报结果。CD 通过一种用于奖励的值函数(我们称之为前缀评分器)解决了一个离策略强化学习问题,该前缀评分器在推断时间用于引导生成以实现更高的回报结果 - 连续强化学习中的双 Q 学习适应
提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法,在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。
- ACL自学对话系统中缺陷行为的可扩展和安全修复
本文提出了一种基于历史回归事故报告的高精度数据样本的培育和利用方法,以在在线部署之前验证、保护并改进政策,解决 Off-Policy 强化学习在大规模商业设置中难以平衡政策改进和经验连续性的问题,并提高了对话系统的用户满意度。
- 重新思考基于群体协助的离线策略强化学习
本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法,在机器人运动任务中的实验结果表明 population data 的 - 基于状态重要性采样的低方差离线评估
该论文介绍了一种名为 SIS 的基于状态的重要性采样方法,用于解决强化学习中 target policy 的评估问题,并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明,与传统的重要性采样、逐决策重要性采 - ICML从像素实现稳定的离线 Deep 强化学习
本文提出了一个新的方法 A-LIX,通过提供适应性正则化来防止出现灾难性的自我过度拟合现象,该方法在 DeepMind Control 和 Atari 100k benchmarks 上显著优于之前的最先进方法,而不需要进行数据增强或辅助损 - 带安全约束的保守分布式强化学习
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分 - 深度强化学习的自适应校准评论家评估
提出了一种称为适应性校准评论家 (ACC) 的方法,并将其应用于 Truncated Quantile Critics 中,实现了自适应调整参数,从而消除了低方差时间差分目标的偏差,并在 OpenAI gym 连续控制基准测试中取得了新的最