IJCAIJun, 2018

针对智能代理人自然语言交流的定期策略优化

TL;DR提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法,该训练范式提供了有效的探索和更好的泛化能力,相比现有的集成模型,我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50%,同时还包括系统性的研究以展示我们 RL 算法的探索策略。