基于备忘录增量训练的加速字符串键学习索引结构
本文讨论了学习索引在 DBMS 索引中的应用,并介绍了一种新的学习索引 ALEX,其结合了学习索引的核心思想和成熟的存储和索引技术,可在动态更新的数据库工作负载中实现高性能和低内存占用。
May, 2019
ALISA 是一种算法 - 系统共同设计解决方案,旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡,ALISA 在有限资源的系统中最大化整体性能。
Mar, 2024
本文研究了利用神经网络加速解决数据分析和机器学习中稀疏编码优化问题的原因,发现其加速与字典的 Gram 矩阵核的一个特定矩阵分解有关,且优化加速条件主要存在于迭代过程的开始阶段。
Sep, 2016
该论文提出了一种名为 LIPP 的学习索引框架,该框架在支持多种索引操作的基础上,通过适当扩展树结构和动态调整策略来解决了先前学习索引的更新操作存在的问题,实验评估证明其优于现有解决方案。
Apr, 2021
本文将现存索引结构视为一种模型,并探讨通过深度学习建立新的索引结构的可行性及运行效率,试验证明,用神经网络实现的索引结构能够在速度上比传统 B 树结构优秀 70%,并在各种真实数据集上实现更好的内存效率,于是指出此方案对于未来数据管理系统的设计具有深远影响
Dec, 2017
本文针对使用学习索引结构替换传统索引结构的近期研究提出了一个统一的基准,将三种学习索引结构的调整良好的实现与多个最先进的 “传统” 基准进行了比较,并使用四个真实世界的数据集证明,学习索引结构确实可以在密集数组的只读内存工作负载中优于非学习索引。同时还研究了缓存、流水线、数据集大小和关键字大小对性能的影响,探讨了学习模型为何能够实现如此良好的性能,并研究其他特性,如多线程系统中的性能和构建时间。
Jun, 2020
本文提出了一种自定义加权损失函数,其中考虑了真实 LIME 解释和模型预测 LIME 解释之间的欧几里得距离,用于提高模型的泛化能力,并通过增量学习设置来验证其有效性。与传统损失函数相比,使用自定义加权损失函数的训练程序对于 Google 语音命令数据集上的关键字识别任务表现出 1%的准确率提高,并在与 EWC 相结合的增量学习设置中表现出低信息损失。
Nov, 2022
通过引入针对大型语言模型(LLMs)的查询感知推理(Q-LLM)系统,我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题,并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。
Jun, 2024
DSI++ 是一项针对可微搜索引擎的持续学习挑战,旨在在索引新文档的同时能够回答先前和新文档相关的查询,通过训练集合内的平缓局部最小值和引入生成性记忆等方法,成功缓解了模型遗忘现象,并大幅提高了检索能力。
Dec, 2022
用一次数据扫描就可以构建、具有与现有最先进的索引模型相竞争的大小和查询性能的学习型索引 ——RadixSpline, 并通过 SOSD 基准评估展示了它的竞争力,尽管它只有两个参数。
Apr, 2020