Mar, 2024

利用非常大的 Dropout 进行微调

TL;DR使用高辍学率而不是集成技术,通过精细调整来获得丰富的表示,其实现出超过集成方法和权重平均方法的超越分布性能,从而为庞大预训练模型的微调情景提供了实际意义。