Oct, 2020

XLVIN:执行的潜在价值迭代网络

TL;DR我们提出了一种叫做 XLVINs 的新方法,它通过结合对比自监督学习、图表示学习和神经算法推理等新方法,成功地在一般环境中部署了 VIN 风格的模型,克服了目前主要存在的局限性,同时匹配了在固定和已知的离散 MDP 情况下的 VIN 模型的性能,并在三个一般的 MDP 设置上提供了显著的模型无关基线改进。