BriefGPT.xyz
大模型
Ask
alpha
关键词
continual fine-tuning
搜索结果 - 3
大型语言模型在连续微调中的灾难性遗忘的实证研究
大型语言模型在不断微调的过程中存在灾难性遗忘现象,尤其随着规模的增加,遗忘的严重程度也加剧,然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较,发现 BLOOMZ 遗忘较少且保留更多知识,还观察到语言模型能够在不
→
PDF
a year ago
切线模型组合用于集成和持续微调
Tangent Model Composition (TMC) 是一种将组件模型独立微调到预训练点周围并组合的方法,旨在支持增量学习、组合或取消学习,并在推理时通过标量组合组合组件模型,从而将集成成本降低到单个模型的成本以提高准确度,在 1
→
PDF
a year ago
通过减轻曝光偏差来更新大型语言模型的自我信息
本文对 LLMs 的自我信息更新任务进行了全面的研究,并评估了其持续微调方法。作者发现,普通的持续微调方法可能存在暴露偏差问题。因此,他们提出了一种有效的方法来缓解这个问题,进一步开发了新闻文章数据集来评估信息更新。实验结果表明,所提出的方
→
PDF
a year ago
Prev
Next