Oct, 2021

Braxlines:一款用于强化学习驱动的行为工程的快速交互式工具包,超越奖励最大化

TL;DRBraxlines是一款交互式工具包,支持通过Composer程序化API生成连续控制环境,并提供基于互信息最大化和发散最小化的稳定算法工具集,用于无监督技能学习和分布草绘等其他行为规范模式。同时,该工具包还讨论了评估这些算法的标准指标,并在硬件加速的Jax模拟器上实现,能够在短时间内完成行为合成。