Nov, 2019

DD-PPO:利用 25 亿帧学习接近完美的目标点导航

TL;DR介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法,用于在资源密集型模拟环境中训练虚拟机器人进行导航,实现了近乎线性的扩展,通过训练并转移场景理解和导航策略,方法实现了身体智能上的图像预训练加特定任务微调。