Sep, 2017

探寻、开发或倾听:在三维世界中结合人类反馈和策略模型,加速深度强化学习

TL;DR提出了一种在三维虚拟环境中使用离散人类反馈增强深度学习智能体性能的方法,通过将深度强化学习扩展到模型置信度和一致性以确定听取人类反馈、利用当前策略模型或探索智能体环境的最佳时机,以平衡这三种策略来增强其稳健性,实验结果展示所提出的技术改善了使用 Minecraft 导航三维环境的深度强化学习的训练速度和性能,并且当人类反馈不准确或未提供时仍具有良好的鲁棒性。