两种召回方式

Mar, 2023

Two Kinds of Recall

Yoav Goldberg

TL;DR本文提出模式模型和学习模型在精度和召回率方面的差异，并通过实验证明神经方法在 d-recall 方面确实表现更好，但在 e-recall 方面模式模型仍然显著更优。理想的方法应该同时考虑两种，如此理想应该体现在我们的评估中。

Abstract

It is an established assumption that pattern-based models are good at precision, while learning based models are better at recall. But is that really the case? I argue that there are two kinds of recall: d-recall

pattern-based models learning-based models d-recall e-recall neural methods

发现论文，激发创造

模式识别的密集关联记忆

研究了一种关联记忆模型，建立了它与深度学习中神经网络的简单对应关系。这个模型可以存储并可靠地检索超过网络神经元数量的模式，可以应用到深度学习中的高次多项式的激活函数，实现或改进手写数字字符识别等任务。

Jun, 2016

捕捉图像检索泛化能力

本篇论文研究了机器学习模型中过拟合和泛化的概念，发现 Recall@K 指标受到数据集中类数目的限制，提出了一种新的检索性能度量方法来估计泛化性能，应用于图像检索方法中，并对深度度量学习的泛化性能提供了新的见解。

Jun, 2023

基于召回概率的自适应学习优先级预测

应用机器学习技术中的多元逻辑回归和循环神经网络，提出了可个性化推荐的学习方案，可以帮助学生更好地掌握知识点和时间安排。

Feb, 2018

大型语言模型中的少样本记忆识别、回忆和保留

现代大型语言模型的训练中，即使只看几次，一个模型也可以记住它们，但随着新的例子不断训练，模型的这些记忆会逐渐被覆盖。同时，这些模型在识别、回忆和保留方面的表现提高得非常快。

Mar, 2023

背诵、重建、回忆：语言模型中的记忆作为多层次现象

以分类方式解析记忆化过程，并构建预测模型，发现不同因素根据分类方式对记忆化概率产生不同影响。

Jun, 2024

记忆力强还是弱？深入探究语言模型记忆机制

对预训练语言模型进行了多种实验，发现预训练模型有助于保持记忆，而非预训练的神经网络具有遗忘的问题，并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力，同时也为语言模型的新学习和推断算法的设计和评估提供了启示。

May, 2023

机器学习中的记忆化

在这项研究中，我们统一了关于机器学习中记忆化的定义和观点，讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响，并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后，我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。

Nov, 2023

对生成模型评估中的精确度和召回率定义的重新审视

重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves，推广到任意度量，建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系，并提出新算法近似 PR curves，证明该算法在受控多模态数据集上优于原始方法。

May, 2019

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

DNN 或 k-NN：泛化 vs. 记忆的问题

本文探讨了深度神经网络和各种经典分类器之间的关系，研究发现 k-NN 是唯一能够完美记忆数据的分类器，其余分类器的记忆只有在网络的最后几层。研究还表明，神经网络的记忆和泛化相容互补。

May, 2018