ICMLJul, 2019

学习时间箭头

TL;DR文章研究了如何在马尔科夫(决策)过程中学习时间的箭头,展示出学习的时间箭头如何捕捉环境的信息,并且能够用来测量可达性、检测副作用和获取内在奖励信号,并在离散和连续环境的选择上显示出实证结果,并展示了学习的时间箭头与 Jordan-Kinderlehrer-Otto 的已知时间箭头的一致性。