- 医学图像分类中的迁移学习的微调策略的比较
针对医学影像和机器学习领域的一个主要挑战是如何有效地将预训练模型适应于专门的医学背景。本研究对应用于 X 光、MRI、组织学、皮肤镜检和内窥镜手术等不同医学影像领域的多种微调方法在预训练模型上的性能进行了全面的分析。结果显示,结合线性探测和 - 对大型语言模型的后门攻击和防御调研:对安全措施的影响
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
- 用表示编辑来对齐大型语言模型:一个控制的观点
通过表示编辑的方法,提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号,以实现特定目标对齐的方法,实验证明该方法在测试时间上优于现有的测试时间对齐技术,并且相对于微调方法需要较少的资源。
- 将语言模型改造为嵌入模型:找寻计算最优配方
本文研究如何在计算优化的情况下对文本嵌入模型进行对比训练,通过使用一系列预训练的只有解码器的语言模型来产生最佳的模型配置、数据量和微调方法,从而适应不同的计算预算级别。我们通过广泛的实验得到了这些结论,可以帮助从业者为他们的嵌入模型做出明智 - 聚焦于效率:LayerNorm 作为细调医学视觉语言预训练模型的催化剂
通过细调 LayerNorm 层,在医疗视觉语言模型(Med-VLMs)中实现了传统细调方法的高效性、准确性和泛化能力,特别适用于大规模 Med-VLMs。
- LoRA 丢弃法作为过拟合控制的稀疏正则化器
本文提出了一种 LoRA Dropout 机制,通过向可学习的低秩矩阵引入随机噪声和增加参数稀疏性,从稀疏正则化的角度证明了 LoRA Dropout 机制的理论机制,并提供了在该框架下的泛化误差界限。理论结果表明适当的稀疏性可以帮助缩小经 - 大型语言模型的全面评析和分析:范式和微调策略的导引
通过综述大型模型微调方法,该研究探讨了最新技术进展和在任务自适应微调、领域自适应微调、少样本学习、知识蒸馏、多任务学习、参数高效微调和动态微调等方面的高级方法的应用。
- 构建安全负责的大语言模型 -- 一个综合框架
为了提高语言生成模型的安全性,我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$,通过使用细致标注的数据集和多种方法来识别潜在的不安全内容,并生成无害的变体。经过对多个数据集的测试,我们观察到不安全内容的生成显著减少,同时在 - LLMs 在医学多模态领域的调整方法是否有效?
通过对大型语言模型(LLMs)的精确调整和创新的参数高效微调(PEFT)方法的研究实验,本研究探讨了大型模型的微调方法对医疗领域的多模态模型的影响,并发展了最有效的医疗 VLP 模型微调方式,以指导医疗领域研究人员优化 VLM 的训练成本, - ACLRIFF: 学习改写输入以便对语言模型进行少样本微调
利用最大边际似然目标训练少样本释义模型,并结合参数高效微调方法改变原始任务的输入文本,通过在训练和测试时用释义数据丰富数据,超越单独使用参数高效微调的性能,对六个少样本文本分类数据集进行实验验证。
- 高效可扩展的基因理解语言模型微调
Lingo 是一种新型的基因组理解模型,通过使用语言模型的上下文线索来重新校准其对基因组序列的语言知识,应用基因组特定的适配器在语言模型上实现了高效可扩展的基因组理解。
- ICLR训练无关 CLIP 基于适应的难以超越的基准线
对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有 - 基于对象驱动的一次性细调文本到图像扩散与原型嵌入
通过使用单一输入图像和对象特定感兴趣区域,以目标驱动的方式解决了大规模文本 - 图像生成模型面临的新物体、单次拍摄等挑战,通过改进模型初始化、引入特征化正则化以及对象特定损失等方法,提高了生成模型的泛化性能和生成图像的准确性,实验证明我们的 - AAT:音频变换器在不同声学识别任务中的应用
提出了一种名为 AAT 的基于 Adapter 调谐的高效微调方法,通过冻结音频 Transformer 模型并插入额外可学习的 Adapter,在不损害模型原始普适性的基础上,有效地获取下游任务知识。大量实验证明,该方法在仅优化 7.11 - 适应大型语言模型的文档级机器翻译
探索大型语言模型在文档级机器翻译中的适应过程及性能,研究了提示策略及精细调优方法对翻译结果的影响,发现部分专用模型的翻译性能甚至超过 GPT-4,但仍面临着偏离翻译问题的挑战,同时进行了深入分析,包括翻译错误、平行文件的规模关系、领域外泛化 - 历史链条:通过 LLMs 进行时态知识图完善的学习和预测
本论文提出了一种新颖的方法,将时间链接预测视为历史事件链中的事件生成任务,并通过有效的微调方法将 LLMs 适应特定的图文本信息和时间线中发现的模式。此外,我们引入了基于结构的历史数据增强和逆向知识的整合,以强调 LLMs 对结构信息的认知 - 保护性扰动是否可以防止个人数据受稳定扩散的侵害?
在这篇论文中,我们系统评估了使用扰动在实际威胁模型下保护图像的方法,并介绍了一种能够在最大程度上保留原始图像结构的净化方法。实验证明,稳定扩散可以有效地从净化后的图像中学习,并且对各种保护方法具有良好的适应性。
- IMMA:针对恶意适应进行文本到图像模型的免疫化
通过学习模型的参数来对抗恶意适应方法,并有效防止生成不良内容的方法 IMMA,在三种适应方法(LoRA、Textual-Inversion 和 DreamBooth)中表现出很高的效果。
- 评估涉及英语和印度语的大型语言模型的翻译能力
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 L - 使用形式方法反馈对语言模型进行微调
使用自然语言任务描述,通过自动合成基于自动机的控制器,并通过与独立提供的规范进行验证,将预训练语言模型完全自动调优以适应自主系统的应用,从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距,其在自主驾驶等多个任务中显示出有效性,使控制