自检索的长距离语言建模
通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量,本文提出了一种可扩展的预训练检索增强语言模型,它在实验证明了在知识密集型任务上优于标准 GPT,未来这可能是预训练自回归 LM 的有前途的方向。
Apr, 2023
通过在推理过程中引入大规模数据存储,检索增强的语言模型(retrieval-augmented LMs)可以更可靠、适应性更强且更具可追溯性,然而目前在超越知识密集型任务(如问答)以外的领域,检索增强的语言模型尚未被广泛采用,这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。
Mar, 2024
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件,并创建 Retrieval-Enhanced Transformer(RETRO),该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器,一个可微分的编码器和一个分块交叉关注机制,可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token,并在 fine-tuning 后转化为下游的 knowledge-intensive 任务,例如问答等,这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。
Dec, 2021
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决用户查询中表现出高达 98.8%的信息检索准确性。
May, 2024
本研究论文探讨了扩展的检索方法用于个性化大型语言模型,通过两种优化算法从下游任务获取反馈进行检索优化,并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验,并获得了显著的统计结果。
Apr, 2024
该研究介绍了一个新的 Rewrite-Retrieve-Read 框架,该框架从查询重写的角度改进了检索增强方法,并通过强化学习调整该框架的策略模型,通过开放域 QA 等下游任务进行了验证。
May, 2023
使用自我监督的方法在预训练过程中引入两个任务强化证据提取,从而增强证据提取能力,以提高 Pre-trained Language Models 在机器阅读理解方面的表现。
May, 2021