Sep, 2022

基于梯度的简单有效序列到序列模型调优

TL;DR本研究首次将梯度基础的超参数优化方法应用于序列到序列任务中,为神经机器翻译和自然语言理解任务(通过 T5 预训练)提供了效率和性能增益。通过超参数优化得到的一些超参数学习时间表可以超过甚至优于最优常值调整。同时,本文还展示了在预训练期间学习超参数可以提高在下游自然语言理解任务中的性能表现。