Feb, 2025

基于流的领域随机化用于学习和排序机器人技能

TL;DR本研究解决了在强化学习中领域随机化的手动环境分布指定问题,提出了一种通过熵正则化的奖励最大化自动发现采样分布的新方法。研究表明,该方法在灵活性和对不确定性的鲁棒性方面优于现有方法,并可用于不确定性感知的多步骤操作计划中的分布外检测。