关于检索增强的 Transformer 的泛化能力
通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件,并创建 Retrieval-Enhanced Transformer(RETRO),该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器,一个可微分的编码器和一个分块交叉关注机制,可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token,并在 fine-tuning 后转化为下游的 knowledge-intensive 任务,例如问答等,这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。
Dec, 2021
通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量,本文提出了一种可扩展的预训练检索增强语言模型,它在实验证明了在知识密集型任务上优于标准 GPT,未来这可能是预训练自回归 LM 的有前途的方向。
Apr, 2023
本研究提出一种名为 Iter-RetGen 的方法,通过检索和生成的迭代协同作用,以全面地处理检索到的知识并在不受结构约束的情况下实现灵活的生成,而这可以在多跳问答、事实验证和常识推理等任务中实现可比甚至优于现有检索辅助基准的效果,同时减少检索和生成的开销,从而提高了性能。
May, 2023
利用 “理想检索” 方法研究检索增强语言模型,评估检索增强对语言模型行为的影响,观察到这些模型在权重保存方面具有更少的世界知识,在理解局部上下文和词间依赖方面表现更好,但在理解全局上下文方面表现更差。
Apr, 2024
Re2G 利用神经检索和排名策略结合 BART 序列生成器,在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升,是目前 KILT 排行榜上最先进的模型。
Jul, 2022
通过研究大型语言模型的自身限制以及外部信息检索的有效性,本研究构建了一个新的问答数据集 WiTQA,以探索实体和关系的组合对于信息检索和知识回忆方面的影响,从而提出了一个基于实体和关系频率的自适应检索系统。
Feb, 2024
通过检索进行预先训练的大型语言模型在困惑度和事实准确性方面表现更好,但现有预先训练的检索增强语言模型的规模仍然受限,因此限制了指导调整和零样本泛化的效果。我们提出了 Retro 48B,这是在指导调整之前预先训练的最大语言模型,通过从 1.2 万亿令牌中检索继续对 43B GPT 模型进行额外的 1000 亿令牌的预训练。Retro 48B 在困惑度方面在很大程度上优于原始的 43B GPT。在 Retro 上进行指导调整后,InstructRetro 在零样本问答任务上明显优于指导调整的 GPT。此外,我们发现可以剔除 InstructRetro 架构中的编码器,直接使用其解码器骨干,同时获得可比较的结果。预先训练与检索使其解码器在问答中更好地融入上下文,为获取更好的 GPT 解码器指明了有希望的方向。
Oct, 2023
本文中,我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程,名为 Retrieval-Pretrained Transformer(RPT),并使用四个长程语言建模任务进行了评估,横跨图书、代码和数学写作,证明了与强基线相比,RPT 改善了整体的检索质量和困惑度。
Jun, 2023
通过在推理过程中引入大规模数据存储,检索增强的语言模型(retrieval-augmented LMs)可以更可靠、适应性更强且更具可追溯性,然而目前在超越知识密集型任务(如问答)以外的领域,检索增强的语言模型尚未被广泛采用,这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。
Mar, 2024
综合检索增强的大型语言模型,在研究表明事实性方面较优越,但并不始终优于原始的无检索语言模型。我们的实验揭示了这种例级性能不一致不仅存在于检索增强和无检索语言模型之间,而且在不同的检索器之间也存在。为了理解这一现象,我们对综合检索增强的大型语言模型进行了退化行为研究,并在理论上将其分解为四个类别。根据我们的分解进一步分析表明,知识源的固有差异和读者模型的不可预测的退化对这种不一致性起到了主要贡献。根据我们的分析,我们引入了可训练的综合检索器框架(EoR),该框架可以从不同的知识源自适应地检索,并且可以有效地减少不可预测的读者错误。我们在开放域问题回答方面的实验证明,EoR 显著改善了单个检索器的 RALM 的性能,并大幅减少了不一致的行为。
May, 2024