Jun, 2022

广义数据分布迭代

TL;DR研究同时实现高样本效率和卓越绩效的深度强化学习模型,将挑战分解为两个经典强化学习问题,数据丰富性和探索 - 开发权衡,并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来同时解决这两个挑战,最终将这个过程整合到广义策略迭代中,提出了更为通用的广义数据分布迭代技术,并在 Arcade Learning Environment 上获得了超越 22 个人类世界纪录的最新性能。