CombLM:通过小型微调模型调整黑盒语言模型
通过自然语言提示,我们提出了一种新颖的视觉语言模型微调方法,利用基于对话的大型语言模型作为黑盒优化器,在少样本图像分类任务中通过对话过程中的文本反馈,自动搜索最佳文本提示,从而避免了对模型参数、特征嵌入或输出标签的访问。
Sep, 2023
通过使用适配器进行微调,我们可以改善大型语言模型在机器翻译方面的性能,并减少训练参数量,同时保持微调模式的效果,解决了少样本学习和过度生成的问题。
Oct, 2023
本文提出黑盒优化框架来通过无导数优化预定义的任务提示,从而在使用预训练语言模型的服务化环境中实现更好的性能。在随机生成的子空间中进行优化,使得黑盒优化框架可以在 RoBERTa 上优化任务提示,并在少量标记样本上显着优于手动提示和 GPT-3 的上下文学习以及梯度优化方法。
Jan, 2022
本文提出了一种基于提示的精调方法(LlamaIT),以实现对通用语言模型(LLM)在领域特定机器翻译任务中的有效和高效精调,并通过零样本提示与指令适应目标领域。结果表明,LlamaIT 能够显著提升 LLM 的领域特定机器翻译能力,同时保持其零样本机器翻译能力。
Feb, 2024
介绍如何微调一种可以私下部署用于内容审核的大型语言模型,并讨论在微调过程中是否融入原因会更好,以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。
Oct, 2023
本研究提出了一种简单而有效的适应 NMT 模型的方法,该方法是将微小的任务特定适配层注入预训练模型,能够同时适应多个不同的任务,并在两项任务中得到了验证,理论与全面的微调相当。
Sep, 2019
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
本研究通过语言接口微调(LIFT)来解决非语言下游任务,而不更改模型架构或损失函数,并进行了全面的实证研究,发现在低维分类和回归任务上,LIFT 的表现与最佳基线相当,并具有归纳偏置,鲁棒性和样本复杂性。
Jun, 2022
通过对已有大语言模型进行适应和扩展,我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率(编码同样数量信息所需的词汇数)和最终任务性能的影响。我们发现,(1)适应前的初始性能并不总是最终性能的指示;(2)大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率;(3)最佳的适应方法高度依赖于语言,简单的方法在各种实验设置中都表现良好。与适应多语言模型相比,适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之,我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。
Jun, 2024
ChipNeMo 通过领域自适应技术在工业芯片设计中探索了大型语言模型的应用。我们评估了这些方法在芯片设计的三个 LLM 应用上的性能,并展示了这些领域自适应技术能够显著提升 LLM 的性能,并实现模型大小减少 5 倍但在一系列设计任务上具有相似或更好的性能。我们的研究结果表明,还有进一步改进的空间,我们相信对领域自适应 LLM 方法的进一步研究将有助于填补这一差距。
Oct, 2023