MMApr, 2023

利用奖励塑形模仿学习方法合成生成类似人类数据以解决序列决策问题

TL;DR本研究通过结合奖励塑造和模仿学习算法,提出了一种生成人工智能系统中类似于人类决策数据的新算法,证明使用这种合成的数据可以成功解决具有逐步增加难度的计算机游戏中的决策任务,并且与人类表现几乎无差异。