policy performance | BriefGPT

关键词policy performance

搜索结果 - 12

基于人类偏好的奖励学习中基于先见性 L2 正则化
通过引入一种赋分策略（Hindsight PRIOR），将状态重要性纳入奖励学习中，可以改善策略学习速度、整体性能和奖励恢复，在元世界（20%）和 DMC（15%）的运动和操纵任务上平均恢复了更多奖励，这表明赋分策略对奖励学习有很大的益处，
PDF3 months ago
在线 3D 装箱的可调鲁棒强化学习
在线 3D 装箱问题（3D-BPP）的有效政策设计一直是一个长期的挑战，本文提出了可调整鲁棒性强化学习（AR2L）框架，通过调整鲁棒性权重实现策略在平均情况和最坏情况下的平衡，以提升策略的鲁棒性同时保持较高的性能水平。
PDF9 months ago
PROTO: 迭代策略规范化离线到在线强化学习
PROTO 使用逐步演化的正则化项优化标准 RL 目标，实现离线到在线 RL 的路径，与各种方法高度适应并具有高效的在线调整性能。
PDFa year ago
基于高效信任区域的安全增强学习与低偏差分布演员 - 评论家
本文提出了一种基于信任区域方法的安全分布式强化学习方法，包括针对分布式评论家的估计偏差的降低，用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法，实验表明，该方法表现出最小的约束违规，同时实现了
PDFa year ago
论学习奖励函数的脆弱性
本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。
PDFa year ago
离线学习的安全评估：我们准备好部署了吗？
提出了一个安全评估离线学习的框架，通过近似高置信度离策略评估（HCOPE）估计在学习期间的策略性能，以在真实环境中部署之前评估新学习的策略的性能表现。
PDF2 years ago
元元强化学习个性化策略的收敛理论
该论文提出了一种个性化元强化学习算法 (pMeta-RL)，旨在解决元强化学习中的梯度冲突问题，该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略，同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明
PDF2 years ago
通过测量合作多智能体 RL 中角色多样性进行策略诊断
通过量化角色多样性作为度量多智能体任务特征的因素，我们发现，MARL 中的误差限可以分解为 3 个部分，并且这些分解因素对 3 个热门方向的政策优化具有显著影响，通过 MPE 和 SMAC 平台的实验验证，角色多样性可以作为多智能体协作任务
PDF2 years ago
ICML可达性约束强化学习
本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。
PDF2 years ago
ICML监督离线排序
本研究提出了一种监督式非政策排名方法，利用离线政策数据和已知性能的政策对一组目标政策进行排名，并通过一个基于层次 Transformer 的政策得分模型来实现。实验证明，这种方法在排名相关性、遗憾值和稳定性等指标上优于基准方法。
PDF3 years ago
时刻与匹配：一个用于弥合模仿差距的博弈理论框架
我们通过矩匹配的视角提供了先前大量的模仿学习算法的统一观点，并考虑了学习者和专家之间行为差异之间的分歧以派生出适用于每个算法类别中的所有算法的策略性能的界限。我们引入了矩恢复的概念，使我们能够清晰地划分每个算法家族的表现如何缓解复合误差，
PDF3 years ago
稳健离线深度强化学习中克服模型偏差
本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。
PDF4 years ago