Oct, 2020

训练更强的基线学习优化

TL;DR本研究采用了训练技巧来改善L2O模型的实际表现。我们提出了一种渐进式训练方案来缓解L2O模型中截断偏差和梯度爆炸之间的困境,并利用离策略模仿学习来引导L2O学习。结果表明,即使是最简单的L2O模型也可以通过这种改进的训练技巧在许多任务上胜过最新的复杂L2O模型。