Oct, 2017

变分赋能实现无监督实时控制

TL;DR介绍了一种计算实用价值下限的方法,使其可用作实时控制中的无监督代价函数,尤其适合于连续动态系统。