Mar, 2024

模型重新编程在文本 - 图像编码器的非分布数据上优于微调

TL;DR评估预训练模型在下游任务中的性能时,除了评估下游模型的内分布准确性外,还必须评估其对于一般化和识别离群样本的能力。本文揭示了侵入性微调技术所带来的隐藏成本,提出了 Reprogrammer 方法来改善下游模型在内分布、离群泛化和离群检测任务中的整体性能。实证证据表明 Reprogrammer 是非侵入性的,能产生更优秀的下游模型,并通过添加额外的表示残差连接进一步保留预训练表示,从而获得更安全、更强大的下游模型,能在许多内分布分类、离群泛化和离群检测设置中表现出色。