policy training | BriefGPT - AI 论文速递

关键词policy training

搜索结果 - 12

强化学习在数据集重置策略优化中的应用
通过借用重置的概念，利用离线偏好数据集提供的信息状态，我们提出了一种具有可证明保证性的新型 RLHF 算法 DR-PO，该算法将离线偏好数据集集成到在线策略训练过程中，并通过数据集重置来优化策略优化器，以获得比 PPO 和 DPO 更好的生
PDF3 months ago
PAGAR：带有主角 - 反角引导的对抗性奖励的模仿学习
本文提出 PAGAR，这是一种用于设计策略训练奖励的半监督学习范例，该算法采用迭代对抗搜索奖励函数，以最大化主角策略和反派策略之间的性能差距，并保证训练出的策略在底层任务中成功执行。实验结果表明，与现有的基于 IL / IRL 的算法相比，
PDFa year ago
通向通用型机器人的基础模型：通过自动化任务和场景生成实现大规模的多样化技能学习
该文呈现了一种用于采矿最新大规模基础模型中的知识的具体想法，其目的是将低级技能学习扩展至规模化，从而实现授予通才机器人的基础模型，并享有在各种现实场景中执行多种任务的能力。
PDFa year ago
ICLR离线强化学习的行为先验表示学习
该研究提出了一种名为 BPR 的学习状态表示的简单有效方法，结合离线 RL 算法在多个控制基准测试中表现出明显的改进，其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。
PDF2 years ago
MM量化先于选择：活跃动态偏好在强化学习中的鲁棒性
通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。
PDF2 years ago
合作人工智能的广义信念
本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。
PDF2 years ago
ICML将基于模型策略的稳态分布规范化以稳定离线强化学习
该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。
PDF2 years ago
多智能体强化学习中的稀疏对抗攻击
本篇论文介绍了 cMARL 系统中的稀疏对抗攻击方法，并探究了该方法的训练策略与效果。实验结果表明，该方法能够显著降低 cMARL 系统中受到少量攻击智能体的性能。
PDF2 years ago
在潜空间中通过组合目标实现高效在线微调
本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。
PDF2 years ago
ICML模仿学习的超参数选择
解决了连续控制环境的模仿学习算法中超参数调整时无法观测到专家演示的外部奖励函数的问题，并通过大量的实证研究提出多种可能的外部奖励代理以及选择超参数的实用建议，结果表明，虽然模仿学习算法对超参数选择敏感，但往往可以通过代理来选择足够好的超参数
PDF3 years ago
AAAI对手学习建模的学习
提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。
PDF4 years ago
ICLR深度策略对抗攻击探究
本文探究了深度强化学习中的对抗攻击，比较了使用对抗样本和随机噪声攻击的有效性，并提出了一种新的基于价值函数的方法来降低攻击的成功次数。此外，本文还研究了随机噪声和 FGSM 扰动对对抗攻击韧性的影响。
PDF7 years ago