ACLMay, 2018

采用单步奖励观察的顺序指令到动作的现场映射

TL;DR该研究提出了一种学习方法,用于将上下文相关的顺序指令映射到动作,并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型,从而实现单步奖励观测。同时,该算法考虑到交互的历史和世界状态的影响,通过实验表明,相较于逻辑表示方法,提出的算法在 SCONE 领域中得到了 9.8%-25.3% 的绝对准确率的提升。