Nov, 2023

高效的符号策略学习与可微分符号表达

TL;DR通过提出一种名为 Efficient Symbolic Policy Learning(ESPL)的高效梯度学习方法,在深度强化学习中实现从头开始学习符号策略,并扩展至元强化学习,生成出性能更高、效率更高且具有潜力解释的符号策略。