揭秘：调查检索增强生成中的注意力精简

Feb, 2024

揭秘：调查检索增强生成中的注意力精简

Unveiling the Magic: Investigating Attention Distillation in Retrieval-augmented Generation

Zizhong Li, Haopeng Zhang, Jiawei Zhang

TL;DR通过注意力蒸馏机制，综合评估了提取增强模型的工作流程，明确了影响检索 - 增强语言模型学习质量的关键因素，并提出了优化模型训练方法和避免无效训练的指标。

Abstract

retrieval-augmented generation framework can address the limitations of large language models by enabling real-time knowledge updates for more accurate answers. An efficient way in the training phase of retrieval-augmented models is →

retrieval-augmented generation framework large language models attention distillation training methods learning quality

发现论文，激发创造

从阅读器向检索器提取知识以作问答之用

本文提出了一种受到知识蒸馏启发的学习信息检索器的技术，在没有标注的查询和文档对的情况下，利用阅读器模型的注意力分数来获得检索器的合成标签，用于下游任务，最终在问题回答方面达到了最先进的结果。

Dec, 2020

面向机器阅读理解的注意力引导答案蒸馏

本文针对无数模型的集成、易受对抗攻击、敏感度等当前阅读理解系统的困境，提出基于知识蒸馏的方法，首先对纯知识蒸馏模型对答案跨度预测的有效性进行了论证，其次，提出两种创新方法，它们不仅惩罚了对混淆答案的预测，还利用了集成中蒸馏出来的对齐信息来指导训练。实验表明，我们的最佳学生模型在推理期间仅运行 12 倍的时间，与集成模型相比，在 SQuAD 测试集上仅有 0.4％的 F1 得分下降，在对抗 SQuAD 数据集和 NarrativeQA 基准测试中甚至胜过老师。

Aug, 2018

使用检索增强和多阶段精炼的大型语言模型的查询意图

本文介绍一种实用而有效的检索增强方法（QUILL），它能够通过检索增强大型语言模型在查询理解方面的能力，而不会增加计算量。我们提出了一种新颖的两阶段蒸馏方法来处理检索增强的模型，证明了这种方法在公共基准测试中取得了出色的性能。

Oct, 2022

摘要文档生成的注意力优化

该论文提出了一种基于序列到序列的文档摘要模型中的注意力机制改进方法，结合局部方差损失和全局方差损失分别从局部和全局方面增强注意力的监督，并在 CNN/Daily Mail 数据集上验证了其有效性。

Oct, 2019

高效 Transformer 知识蒸馏：绩效评估

对高效注意力转换模型进行知识蒸馏的模型压缩评估，并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。

Nov, 2023

蒸馏增强的生成式检索

通过蒸馏技术，提出了一种名为 DGR 的可行框架，利用排名模型作为教师角色，通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型，从而提升了当前生成式检索系统的性能。

Feb, 2024

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

检索增强型文本生成调查

本文概述了检索增强型文本生成的一般范式，为了实现未来的研究，回顾了不同任务中值得注意的方法，包括对话响应生成，机器翻译和其他生成任务，并指出一些关键方向。

Feb, 2022

将大规模生成模型的知识提炼为检索模型，用于高效的开放域对话

提出了一种新的训练方法，称为 G2R（Generative-to-Retrieval distillation），它通过将生成模型的知识注入检索模型中，从而保留检索模型的效率和大规模生成模型的会话能力，通过人工评估等广泛实验证明，使用 G2R 训练的检索型对话系统相比于基准检索模型显示出大幅提高的性能，同时显示出显着较低的推理延迟。

Aug, 2021

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024