Oct, 2020

训练更强的基线学习优化

TL;DR本研究采用了训练技巧来改善 L2O 模型的实际表现。我们提出了一种渐进式训练方案来缓解 L2O 模型中截断偏差和梯度爆炸之间的困境,并利用离策略模仿学习来引导 L2O 学习。结果表明,即使是最简单的 L2O 模型也可以通过这种改进的训练技巧在许多任务上胜过最新的复杂 L2O 模型。