一种基于模仿学习的高速缓存替换方法

Jun, 2020

一种基于模仿学习的高速缓存替换方法

An Imitation Learning Approach for Cache Replacement

Evan Zheran Liu, Milad Hashemi, Kevin Swersky, Parthasarathy Ranganathan, Junwhan Ahn

TL;DR提出了一种基于imitation learning的方法来自动学习缓存访问模式，并取得了显著的性能提升，尤其是在内存密集应用和大规模网络搜索应用中。

Abstract

Program execution speed critically depends on increasing cache hits, as cache hits are orders of magnitude faster than misses. To increase cache hits, we focus on the problem of cache replacement: choosing which cache line to evict upon inserting a new line. This is challenging because

发现论文，激发创造

机器学习建议下的竞争性缓存

本篇论文提出了一种框架，通过将已有的在线算法与机器学习算法结合，可以在具有较低误差的情况下证明实现竞争比的提高。并将此框架应用于传统缓存问题中，通过修改Marker算法，利用机器学习算法的预测结果，实现较低的竞争比，即使是使用简单的预测也可以在真实环境中取得好的性能。

Feb, 2018

强化学习增强的缓存：实验研究

使用机器学习和加强式算法提高缓存置换的性能

Jun, 2021

LQoCo：学习优化存储系统中的缓存容量超载

本文首次提出了一种轻量级学习型缓存带宽控制技术（LQoCo），它可以自适应地控制缓存带宽，以有效地防止存储系统中的缓存过载，实验表明，LQoCo可以适应不同的工作负载，从而显著提高存储性能。

Mar, 2022

具有噪声请求估计的无悔缓存

提出了一种名为Noisy-Follow-the-Perturbed-Leader（NFPL）算法的在线学习算法来设计具有遗憾保证的缓存策略，在请求估计有噪声的情况下，该算法具有亚线性遗憾，并通过实验验证了该方法的有效性。

Sep, 2023

基于深度强化学习和迁移学习的边缘缓存

本文探讨了网络中冗余数据传输的日益严峻挑战，提出了基于双深度强化学习缓存的解决方案，通过综合考虑文件的生命周期、大小和重要性等特征，实现了比最近的基于深度强化学习的方法更优异的性能，并引入了迁移学习以解决实际环境中缓存的动态挑战。

Feb, 2024

减少预测数量的缓存和MTS算法

使用预测的ML增强算法对缓存和MTS进行研究，提出了具有一致性和平滑性参数的节俭算法，能够在预测准确性下提高性能。

Apr, 2024

一种具有对数复杂度和遗憾保证的在线基于梯度的缓存策略

我们引入了一种基于梯度的在线缓存策略，相对于目录大小具有对数计算复杂度，同时提供遗憾保证，能够在实时决策和最佳后见选择之间最小化性能差距。

May, 2024

优化LLM中的KV缓存逐出策略：自适应分配以提升预算利用率

大型语言模型在各个领域取得了很好的成绩，但由于长序列推理所需的广泛KV缓存限制了效率。许多努力尝试在运行时清除非关键缓存元素，从而在给定的内存预算内减小缓存大小，同时保持生成质量。我们重新审查了现有策略的基本原理，并发现当前的做法是在驱逐过程中均匀分配预算到不同的注意力头上，这往往会降低驱逐后生成质量。基于这些发现，我们提出了一种简单而有效的自适应分配算法，不仅在理论上确保其损失上限不超过之前均匀分配方法的上限，而且还能与自注意机制的特性相一致，从而实际降低上限。此外，将此算法与两种最先进的方法结合起来，得到了Ada-SnapKV和Ada-Pyramid。对16个数据集和“大海捞针”测试的广泛实验验证证实，Ada-SnapKV和Ada-Pyramid实现了进一步的改进，在最高性能的技术水平上建立了新的基准。

Jul, 2024

NACL：一种通用且有效的长文本推理时 KV 缓存驱逐框架

该研究针对大型语言模型在推理过程中KV缓存造成的高内存消耗问题，提出了NACL框架，通过单步操作优化缓存驱逐过程。研究表明，NACL显著提高了短文本和长文本任务的性能，分别提升了80%和76%，同时减少了最多50%的KV缓存使用，且保持了95%以上的性能。

Aug, 2024

NACL：一种通用有效的长语言模型推理时 KV 缓存驱逐框架

本研究针对大型语言模型在推理时面临的KV缓存管理问题，提出了NACL框架，旨在优化长上下文的缓存驱逐过程。NACL通过结合准确的注意力得分统计和多样化的随机驱逐策略，显著改善了短文本和长文本任务的性能，分别提高了80%和76%的准确率，同时将KV缓存减少了50%以上，且性能保持在95%以上。

Aug, 2024