大规模语言模型的基于令牌的影响训练数据检索

ACLMay, 2024

大规模语言模型的基于令牌的影响训练数据检索

Token-wise Influential Training Data Retrieval for Large Language Models

Huawei Lin, Jikai Long, Zhaozhuo Xu, Weijie Zhao

TL;DR提出了 RapidIn 框架，用于估算每个训练数据对大型语言模型生成的影响，通过缓存和检索阶段，压缩梯度向量并支持多 GPU 并行加速，实现了超过 6326 倍的加速效果。

Abstract

Given a large language model (LLM) generation, how can we identify which training data led to this generation? In this paper, we proposed rapidin

large language model rapidin training data influence estimation gradient vectors

发现论文，激发创造

DataInf: 在经过认证的 LLMs 和扩散模型中高效估计数据影响力

我们提出了 DataInf，一种高效的影响力近似计算方法，可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式，DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明，DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估，我们表明 DataInf 准确地近似了影响力分数，并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中，DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例，而且可以帮助识别出错误标记的数据点。

Oct, 2023

大规模语言模型的无监督信息精炼训练用于检索增强生成

提出了一种名为 InFO-RAG 的信息优化训练方法，通过优化大语言模型在检索增强生成中的作用，实现了对输入的检索文本进行信息精简，提高了生成的文本的准确性、完整性和简洁性，相对于 LLaMA2 平均提升 9.39% 的性能，并展现了在上下文学习和鲁棒性方面的优势。

Feb, 2024

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

InPars-v2: 信息检索高效数据集生成器的大型语言模型

通过使用开源的大型语言模型和现有强大的重排序器，InPars-v2 提出了一种用于生成训练数据的合成查询 - 文档对的数据集生成器，并通过简单的 BM25 检索管道和使用 InPars-v2 数据微调的 monoT5 重排序器，取得了 BEIR 基准测试的最新最优结果。

Jan, 2023

Lookahead: 大型语言模型的推理加速框架，保持生成准确性

该研究论文介绍了一种加速检索和生成过程的通用框架，通过引入多分支策略和基于 Trie 的检索过程，实现了 Retrieval-Augmented Generation 系统的推理速度的显著提升。

Dec, 2023

InPars: 使用大型语言模型的信息检索数据增强

利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Feb, 2022

微调还是检索？LLMs 中知识注入的比较

比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法，发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning，并且 LLMs 在 fine-tuning 中难以学习新的事实信息，通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。

Dec, 2023

基于梯度的自动迭代恢复方法用于参数高效调整

本文利用 TracIn 方法改善了预训练大型语言模型在参数有效调整（PET）任务中的表现，通过 G-BAIR 方法进行梯度自动化迭代恢复，证明了类似 TracIn 的影响方法可以用于自动执行数据清理，并引入了交互式调试和重新标记 PET-based 转移学习方法的潜力。

Feb, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

通过影响分析的上下文学习示范选择

通过使用影响函数分析训练样本的影响力，我们提出了一种名为 InfICL 的演示选择方法，用于选择对 In-Context Learning（ICL）有高影响力的训练样本，从而提高 ICL 的泛化性能，并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。

Feb, 2024