可更新的带精确定位的学习索引
大型语言模型(LLM)可以通过从静态预训练语料库中提取信息来完成知识密集型任务。我们介绍了一种名为 AdapterSwap 的训练和推理方案,它将数据集中的知识组织成一组低秩适配器,并在推理过程中动态组合,以解决在不断演变的数据需求背景下既满足新数据需求又不忘记旧信息的问题。我们的实验证明了 AdapterSwap 在支持高效的持续学习的同时,还能使组织对数据访问和删除拥有细粒度的控制。
Apr, 2024
通过研究发现,Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法,在时效性知识编辑方面表现更优,从而为大型语言模型的更新提供了一种替代方案。
Jun, 2024
利用 EREN(通过阅读笔记编辑模型)提出方法来提高大型语言模型的可伸缩性和鲁棒性,通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识,优于现有技术。
Mar, 2024
通过开展广泛的实验证明,我们提出的 Position-Aware Parameter Efficient Fine-Tuning 方法能够减少大型语言模型中的位置偏差,从而提高处理长上下文序列的效果,并改进对需要从外部检索知识的各种任务的表现。
Apr, 2024
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
通过消除输入段落顺序的不同,我们的方法改变了因果注意力,使其变为段落之间的双向关注,并利用模型关注值来决定段落的相对顺序,从而实现了段落级的位置不变推理(PINE),消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。
Jul, 2024
通过 TriPosT 训练算法,这篇论文介绍如何赋予更小的模型自我改进的能力,从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距,并且通过与大型语言模型进行互动,收集反馈和改进,并将这一经验用于训练小模型,实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。
Oct, 2023
该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注,其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法,通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑,该方法在 MAGICBRUSH 数据集上表现出色,优于最新的先进模型。
Mar, 2024