DSI++:使用新文档更新 Transformer 记忆
Differentiable Search Index 是最近提出的一种用于文档检索的范例,通过将文档语料库的信息编码在神经网络的参数中,并直接将查询映射到相应的文档。本文提出了一种名为 IncDSI 的方法,可以在实时环境下添加文档(每个文档约 20-50ms),而无需对整个数据集或其部分进行重新训练。我们将文档添加视为一个约束优化问题,以最小程度地修改网络参数。尽管速度快了数个数量级,我们的方法与在整个数据集上重新训练模型的方法具有竞争力,并能够实时更新的文档检索系统的开发。IncDSI 的代码可在此 URL 获得。
Jul, 2023
本文提出可使用单个 Transformer 完成信息检索,通过 DifferentiableSearch Index 实现将文本的所有信息编码于模型参数中,使得检索过程大为简化,实验结果显示该方法明显优于双编码器模型以及 BM25 基线方法。
Feb, 2022
该研究提出了一种名为 DSI-QG 的简单而有效的检索框架,用于解决当前 DSI 模型存在的数据分布不匹配问题,该框架通过查询生成模型和跨编码器排序器生成潜在相关查询,改善了检索和检索过程之间的数据分布不匹配问题,并在流行的单语和跨语言检索数据集上显著优于原始 DSI 模型。
Jun, 2022
PromptDSI 是一种无需重复训练的、基于提示的增量学习方法,使用冻结的 PLM 编码器,并利用其强大的表示能力来高效地索引新的文集,同时维持稳定性和适应性的平衡。该方法通过消除基于提示的持续学习方法的初始前向传播来减少训练和推理时间,并提出了一种基于主题的提示池策略,使用神经主题嵌入作为固定的键,以确保多样化和有效的提示使用,并解决查询键匹配机制崩溃引起的参数低效利用的挑战。我们的实证评估表明,PromptDSI 在管理遗忘方面与 IncDSI 相当,同时在新的文集上提高召回率超过 4%。
Jun, 2024
De-DSI 是一种新颖的框架,通过将大型语言模型(LLMs)与信息检索真正的分布式化相结合,特别是在分布式环境中采用可微分搜索索引(DSI)的概念,以有效地将新颖的用户查询与文档标识符连接起来,在仅使用查询 - 文档标识符对上进行操作。该框架通过引入 DSI 模型的集合来提高可扩展性,其中数据集被分割为较小的片段进行单独的模型训练。通过使用波束搜索来识别顶级文档标识符并应用 softmax 函数进行评分归一化,从而选择具有最高得分的文档进行检索。该分布式实现表明检索成功率与集中式方法相当,同时具有将计算复杂性分布到网络中的额外好处。该设置还允许通过磁力链接检索多媒体项目,消除了平台或中介的需求。
Apr, 2024
本研究介绍了一种使用动态内存来适应医学影像中不断变化的数据漂移及应对灾难性遗忘效应的机器学习算法,并在两种不同扫描协议的临床 CT 数据和合成分类任务中进行了实验验证。实验表明,动态内存能有效对抗多个数据漂移设置下的灾难性遗忘,并不需要显式的知识来识别这些漂移发生的时间。
Jul, 2020
本文提出一种新颖的动态存储量化策略,Dynamic Stashing Quantization(DSQ),旨在减少内存操作,并享受低精度训练的其他好处,比如减少运算成本,通过在两个翻译任务和三个分类任务上的研究表明,DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍,并将 DRAM 操作数量降低了 2.55 倍,这为大语言模型在设备学习中的部署提供了解决方案。
Mar, 2023
提出了生成检索(GR)和生成稠密检索(GDR)两种机制,通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题,在小规模语料库中实现了较好的检索性能和可扩展性。
Jan, 2024