Oct, 2018

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

TL;DR本研究使用即时反馈,通过引入人与环境的互动,提高了强化学习在机器人学中的应用性,并提出了一种 DQN-TAMER 算法,在模拟和现实环境中都有优越表现。