- 安全的深度策略适应
SafeDPA 是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架,通过在仿真环境中联合学习自适应策略和动力模型,并通过少量现实数据进行动力模型微调,引入基于控制屏障函数的安全过滤器,以确保在现实世界部署中的安全性。SafeDP - ICML诊断、反馈、适应:人在执行时进行策略适应的框架
本文提出一种交互式框架,利用用户反馈直接识别个性化任务无关概念生成反事实演示,用于数据增强并获得适合个性化用户目标的策略,通过在真实人类用户的离散和连续控制任务上进行实验证明了该方法有效降低了微调所需演示数量、使用户更好地了解机器人代理失败 - 嵌入式演示数据集搜索实现行为克隆
使用潜空间索引演示数据集,成功地利用搜索技术实现基于行为克隆算法的控制,因此收获了具有人类特征、可以适应各种情境的代理行为,比现有的训练模型更加高效,具有无需任务适应等优点。
- 基于探索性任务聚类的元强化学习
利用聚类方法探索任务结构,缩小任务特定信息的搜索空间,提高元强化学习的采样效率和策略适应能力。
- CVPR基于基础模型反馈的政策调整
使用基於視覺和語言的模型的預先訓練模型作為演示解決方案,通過 Policy Adaptation from Foundation model Feedback(PAFF)技術可以在任務和環境不斷變化的情況下,創建可以實現分類、物體抓取和導航 - PARTNR: 基于可信互动学习的取放模糊性解决方案
PARTNR 算法通过多模式分析检测训练策略中的不确定性,提出自适应门控函数来决定是否需要额外用户演示,并利用聚合到数据集中的演示信息进行训练,使策略能够迅速适应领域转换,最大程度地减少所需演示数量并自主执行。
- AAAI稀疏奖励任务元强化学习的行动翻译器
通过引入 action translator 对元强化学习中的奖励稀疏性和难度失衡的问题进行优化,极大提高了学习共享策略在适配新任务时的效率和性能。
- 深度强化学习和 Real2Sim 策略适应在机器人视觉插入中的应用
本文提出了一种基于纯视觉强化学习的插入任务解决方案,并提出了一种新颖的 Sim2Real 策略 Real2Sim,该策略在政策适应方面具有优势。
- 从实物人类反馈中学习:一种物体为中心的单次适应方法
本文介绍了一种人机交互的方法,使用对象为中心的子任务描述人类任务,并根据特定对象检查和更新模型中的权重,以实现机器人的快速且简单的策略自适应。
- 基于任务关系建模的多智体策略迁移
本文提出了一种基于任务表示的团队适应方法,通过学习任务之间的共同结构,使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。
- ICLR通过策略调整学习可转移的目标物体定位奖励
本文介绍了一种基于强化学习的对象查询本地化方法,可以通过有限的样例集合训练智能体从而在新环境下进行测试,该方法使用序数度量学习构建可转移的奖励信号,且可以将训练好的智能体从一个类别应用到另一个类别。实验证明该方法在 MNIST、CU-Bir - SafeAPT:使用在模拟器中学得的多样策略的安全模拟 - 真实机器人学习
介绍了一种名为 SafeAPT 的学习算法,它使用仿真实验学习的策略并将其安全地迁移到实际机器人中,通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型,并使用仿真经验作为先验,在满足安全约束的情况下完成该策略。经 - AdaRL:迁移强化学习中的适应什么、在哪里和如何适应
提出了一种基于图表示学习的 RL 适应策略 AdaRL,只需少量样本即可可靠且高效地适应环境变化,结果表明 AdaRL 在 Cartpole 和 Atari 游戏中的表现良好。
- 通过进化元学习快速适应的腿式机器人
本文提出了一种适用于机器人的新的元学习方法,结合了基于演化策略的元学习和更具噪声容忍度的 Batch Hill-Climbing 适应算子,显著提高了机器人在高噪声环境下的动态变化适应能力。在测试时,我们的方法比基于梯度的方法性能更好,使机 - 异质行动空间中的强化模仿
本文提出了一种逐步平衡模仿学习成本和强化学习目标的方法,使得机器人能够利用稀疏奖励函数来优化其动作,以在导航场景等方面表现出更好的性能。
- VPE: 变分策略嵌入用于迁移强化学习
本文研究了如何在不同领域中转移知识和适应环境,提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略,使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。