大规模语言模型的基于令牌的影响训练数据检索
我们提出了 DataInf,一种高效的影响力近似计算方法,可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式,DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明,DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估,我们表明 DataInf 准确地近似了影响力分数,并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中,DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例,而且可以帮助识别出错误标记的数据点。
Oct, 2023
提出了一种名为 InFO-RAG 的信息优化训练方法,通过优化大语言模型在检索增强生成中的作用,实现了对输入的检索文本进行信息精简,提高了生成的文本的准确性、完整性和简洁性,相对于 LLaMA2 平均提升 9.39% 的性能,并展现了在上下文学习和鲁棒性方面的优势。
Feb, 2024
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
通过使用开源的大型语言模型和现有强大的重排序器,InPars-v2 提出了一种用于生成训练数据的合成查询 - 文档对的数据集生成器,并通过简单的 BM25 检索管道和使用 InPars-v2 数据微调的 monoT5 重排序器,取得了 BEIR 基准测试的最新最优结果。
Jan, 2023
该研究论文介绍了一种加速检索和生成过程的通用框架,通过引入多分支策略和基于 Trie 的检索过程,实现了 Retrieval-Augmented Generation 系统的推理速度的显著提升。
Dec, 2023
利用大型预训练语言模型作为综合数据生成器,对于信息检索任务的未监督数据的微调,可以使检索器在零样本学习和有监督学习的任务中获得更好的表现
Feb, 2022
比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法,发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning,并且 LLMs 在 fine-tuning 中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
本文利用 TracIn 方法改善了预训练大型语言模型在参数有效调整(PET)任务中的表现,通过 G-BAIR 方法进行梯度自动化迭代恢复,证明了类似 TracIn 的影响方法可以用于自动执行数据清理,并引入了交互式调试和重新标记 PET-based 转移学习方法的潜力。
Feb, 2023
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
通过使用影响函数分析训练样本的影响力,我们提出了一种名为 InfICL 的演示选择方法,用于选择对 In-Context Learning(ICL)有高影响力的训练样本,从而提高 ICL 的泛化性能,并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。
Feb, 2024