RadixSpline：一种单遍学习索引

Apr, 2020

RadixSpline: A Single-Pass Learned Index

Andreas Kipf, Ryan Marcus, Alexander van Renen, Mihail Stoian, Alfons Kemper...

TL;DR用一次数据扫描就可以构建、具有与现有最先进的索引模型相竞争的大小和查询性能的学习型索引 ——RadixSpline, 并通过 SOSD 基准评估展示了它的竞争力，尽管它只有两个参数。

Abstract

Recent research has shown that learned models can outperform state-of-the-art index structures in size and lookup performance. While this is a very promising result, existing learned structures are often cumberso

learned models index structures radixspline training passes sosd benchmark

发现论文，激发创造

基于学习的索引性能基准测试

本文针对使用学习索引结构替换传统索引结构的近期研究提出了一个统一的基准，将三种学习索引结构的调整良好的实现与多个最先进的 “传统” 基准进行了比较，并使用四个真实世界的数据集证明，学习索引结构确实可以在密集数组的只读内存工作负载中优于非学习索引。同时还研究了缓存、流水线、数据集大小和关键字大小对性能的影响，探讨了学习模型为何能够实现如此良好的性能，并研究其他特性，如多线程系统中的性能和构建时间。

Jun, 2020

基于备忘录增量训练的加速字符串键学习索引结构

通过矩阵分解技术，新开发了一种算法硬件协同设计的字符串键学习索引系统 SIA，通过增量训练方案和 FPGA 加速器，大大提高了检索性能。

Mar, 2024

ALEX: 一种可更新的自适应学习索引

本文讨论了学习索引在 DBMS 索引中的应用，并介绍了一种新的学习索引 ALEX，其结合了学习索引的核心思想和成熟的存储和索引技术，可在动态更新的数据库工作负载中实现高性能和低内存占用。

May, 2019

学习式索引结构的案例

本文将现存索引结构视为一种模型，并探讨通过深度学习建立新的索引结构的可行性及运行效率，试验证明，用神经网络实现的索引结构能够在速度上比传统 B 树结构优秀 70%，并在各种真实数据集上实现更好的内存效率，于是指出此方案对于未来数据管理系统的设计具有深远影响

Dec, 2017

SPLADE 模型效率研究

本文主要聚焦于基于预训练语言模型的信息检索系统，提出了一系列技术包括 L1 正则化、分离文档 / 查询编码器、使用更快速的查询编码器等方法，以提高 SPLADE 模型的效率并在领域内数据上提高性能指标。在相同计算限制下，我们提出的神经模型实现了与传统 BM25 相似的延迟和与最先进的单阶段神经排序器相似的性能指标。

Jul, 2022

可更新的带精确定位的学习索引

该论文提出了一种名为 LIPP 的学习索引框架，该框架在支持多种索引操作的基础上，通过适当扩展树结构和动态调整策略来解决了先前学习索引的更新操作存在的问题，实验评估证明其优于现有解决方案。

Apr, 2021

多维空间的学习索引调查

现在的研究趋势是将数据库索引结构视为机器学习模型，通过训练单个或多个机器学习模型来学习从键到数据集内位置的映射关系，从而实现改进搜索性能和减少空间需求。该调查重点关注学习多维索引结构，介绍了该研究领域的现状，解释了每个方法的核心概念，并根据多个明确定义的标准对这些方法进行分类。我们提供了一个分类法以对每个学习多维索引进行分类和归类，并根据此分类法对现有的学习多维索引文献进行了调查。此外，我们还提供了一个时间线来说明学习索引研究的发展历程，并重点介绍了这个新兴且非常活跃的领域中的几个挑战和未来研究方向。

Mar, 2024

SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型

本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器，具有高度稀疏的表示，与最先进的密集和稀疏方法相比取得了有竞争力的结果，并探讨了效率和效果之间的平衡。

Jul, 2021

信息检索的稀疏词法和扩展模型 SPLADE v2

本文通过对 SPLADE 模型的改进，在效率和效果上都有了提升，其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练，最终取得了在 BEIR 测试上最新的最优结果。

Sep, 2021

基于动态连续索引的快速 K 最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015