Mar, 2022

适用于快速从人类导师中学习的多才智能

TL;DR通过引入Policy Pool和异步的非条件policy优化策略, 本文提出了一种在机器人与人类之间合作中使用的人类向机器人知识迁移算法, 在 Mini-Grid 环境中对复杂问题仅需要一次人类示范便可快速学习,展示了其非常高的效率和实用性。