Feb, 2020

符号网络:针对关系马尔可夫过程的广义神经策略

TL;DR通过训练一组共享参数的SymNet模型,将RDDL的关系建模与神经网络结合,达到单次前向传播即可获得包括实例无关的策略和值函数在内的更加复杂的泛化策略,优于随机和现有策略,适用于九个IPP C领域。