使用特征扭曲和简洁偏好进行模型适应的深入研究
本研究通过评估常见的适应协议跨分布改变和机器学习安全度量,并探讨如何应用数据扩增来减轻不同适应协议的权衡。最终,假设并验证了在线性探测时使用硬度增强扩展,然后使用扩展调整的硬度增强扩展可能特别有效来减轻权衡。
Jul, 2022
本文研究预训练模型在下游任务中的迁移方法,发现在预训练特征优秀且分布偏移较大的情况下,与全微调相比,线性探针能够获得更好的模型鲁棒性,同时,我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升,而线性探针再进行全微调的策略则能够优化这一问题。
Feb, 2022
本文介绍了一种名为 Sparse Adaptation for Fine-Tuning(SAFT)的方法,它通过只更新一小部分重要参数来防止微调过程中遗忘预训练模型的通用知识。实验证明,使用 SAFT 可以显著提升 CLIP 模型的性能,在多个基准任务中,SAFT 方法始终优于基准方法,在 OOD 环境中,与传统微调方法相比,SAFT 平均提升 5.15%。
Jul, 2024
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024
神经网络对简单特征具有偏好,本文提出了一种鼓励模型使用多样性特征进行预测的框架,通过训练一个简单模型并对其进行条件互信息的正则化,解决了简单性偏差问题,并在各种问题设置和实际应用中显示了其有效性,提高了模型的性能以及鲁棒性和公平性。
Oct, 2023
本文介绍了 Domain-Aware Fine-Tuning (DAFT) 的方法,该方法通过批量归一化转换和线性探测与微调的集成来有效减轻特征扭曲,并在分布和非分布数据集上实现了改进的模型性能。
Aug, 2023
本文提出了一种名为 Pro$^2$ 的轻量、样本高效的方法,通过将预训练嵌入映射到正交方向来学习多样的预测特征,并在小目标数据集上适应目标分布。在多个数据集上的试验表明,与标准线性探测等先前方法相比,Pro$^2$ 提高了 5-15% 的性能。
Feb, 2023
研究发现神经网络训练过程中存在简单性偏差,该偏差导致其缺乏鲁棒性,但该问题可通过不同方式训练来缓解,其中包括使用梯度对齐的惩罚项进行训练,以及在独立的模型选择阶段解决信息不足问题,此方法在视觉识别上获得了最佳结果。
May, 2021
本研究系统地探讨了在预训练语言模型(Pre-trained Language Models)规模扩大或转移方法改变时,检测样本分布变化的能力如何随之改变,着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。
Jan, 2023
通过理论研究和实证评估,本文分析了差分隐私 fine-tuning 方法的训练动态,并探讨了顺序 fine-tuning 的现象及其对测试损失的影响,为过参数化神经网络中的差分隐私调优提供了理论洞见和隐私预算分配规则。
Feb, 2024