Mar, 2019

带深度继承特征的真正批量学徒学习

TL;DR本篇论文介绍了一种新的学徒式学习算法,通过仅利用专家行为批量数据来学习专家的潜在奖励结构,并使用深继承特征网络(DSFN)来估计特征期望值和过渡规范化模仿网络来产生高效的特征表示和接近专家的初始政策,实现了对临床Intensive Care Unit疾病Septic Shock的卓越处理结果。