Feb, 2020

重新审视微调的超参数

TL;DR该研究从实验评估中重新审视了微调的超参数几个通用实践,发现动态学习参数不是一个很好探索的参数;发现微调的最佳超参数不仅与数据集相关,还与源域和目标域的相似性敏感;发现参考基于的规则化方法可能不适用于“不相似”的数据集。这些结论挑战了微调的常见实践,并鼓励深度学习从业者重新思考微调的超参数。