使用LoCo和M2-BERT进行长上下文检索模型的基准测试和构建
本文中,我们提出了一个简单的基线方法,使用不对称架构来提高Dual Encoder检索器的效率。我们发现即使使用只有两层的BERT-based查询编码器,通过无监督的蒸馏和适当的学生初始化,仍然可以在BEIR基准测试中保持92.5%的DE性能。我们希望我们的研究可以鼓励社区重新评估方法复杂性和性能提升之间的权衡。
Jun, 2023
本文中,我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程,名为Retrieval-Pretrained Transformer(RPT),并使用四个长程语言建模任务进行了评估,横跨图书、代码和数学写作,证明了与强基线相比,RPT改善了整体的检索质量和困惑度。
Jun, 2023
通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案,我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型,而计算量较小。此外,我们证明检索可以显著提高大型语言模型的性能,而不受其扩展上下文窗口大小的限制。我们的最佳模型,检索增强的32K上下文窗口的LLaMA2-70B,在7个长上下文任务中,包括问答和基于查询的摘要,的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。
Oct, 2023
现代自然语言处理(NLP)应用中的嵌入模型在信息检索和大规模生成方面起着重要作用,本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到32k,而不需要额外的训练。我们通过新构建的LongEmbed基准测试,对目前的嵌入模型在长文本检索上的性能进行了评估,并发现有巨大的改进空间。我们实验表明训练前的扩展策略(如位置插值)可以有效地将现有嵌入模型的上下文窗口扩展多倍,无论其原始上下文是512还是4k以上。对于使用绝对位置编码(APE)的模型,我们展示了进一步微调以取得显著性能提升并严格保留短序列输入的原始行为的可能性。对于使用旋转位置嵌入(RoPE)的模型,当使用RoPE特定方法(如NTK和SelfExtend)时,我们观察到显著的增强效果,表明RoPE在上下文窗口扩展方面的优越性。为了促进未来的研究,我们发布了E5-Base-4k和E5-RoPE-Base数据集,并提供了LongEmbed基准测试。
Apr, 2024
本研究针对现有多语言文本检索模型在长文本处理中的不足,提出了一种新型的长上下文多语言文本表示模型及重排序模型。通过对文本编码器的增强和对比学习,研究展示了该模型在长上下文检索基准上的优越性能,潜在推动了该领域的研究和实际应用。
Jul, 2024
本研究解决了传统检索模型在领域准确性和推广能力方面的不足,通过对多种检索任务的全面实证研究,评估了大型语言模型(LLMs)的性能。研究发现,较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性,并在零样本推广和多任务学习等方面展现出显著潜力,这为未来相关领域的研究与开发提供了重要见解。
Aug, 2024
本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题,采用大型语言模型(LLMs)进行评估,探讨其在密集检索中的独特优势。研究结果表明,较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率,同时在零样本泛化、长检索等多任务学习中具有重要潜力,这为未来的研究和开发提供了有价值的见解。
Aug, 2024
本文解决了大型语言模型在处理长上下文时面临的挑战,提出了MemLong:一种利用外部检索器进行历史信息检索的记忆增强方法。研究表明,MemLong不仅提升了长上下文语言建模的能力,还能将单个3090 GPU的上下文长度从4k扩展至80k,显著优于现有的最先进模型。
Aug, 2024
本研究解决了当前通用长上下文模型在实际长上下文处理任务中的不足。我们提出了一种自动数据合成管道,模仿人类信息处理的方法,通过短上下文模型生成任务特定的数据,从而提升其长上下文能力。实验结果表明,这种方法在实际任务中超越了现有的长上下文模型和数据合成管道。
Oct, 2024