Sep, 2023

ComSD: 在无监督技能发现中平衡行为质量和多样性

TL;DR为了解决质量和多样性冲突的问题,论文提出了一种对比的多目标技能发现方法,通过更合理的互信息估计和动态加权的内在奖励来平衡发现行为的质量和多样性,并在挑战性机器人行为发现任务中展示了优秀的性能。