ICLRJul, 2021

策略梯度搜索中的探索改进:符号优化应用

TL;DR本文介绍了两种探索方法 —— 熵正则化和分布初始化,用于解决基于神经网络的自动数学计算任务中的早期决策和初始化偏差问题,从而提高机器学习性能、样本效率和解决方案复杂性。