通过存储案例,使用基于上下文的查找直接修改神经网络的权重,以 Memory-based Parameter Adaptation 为核心的方法,可以在监督任务中有效地改善深度神经网络的性能和训练速度。
Feb, 2018
本研究证明了增强记忆功能的神经网络具有快速吸纳新数据和利用数据进行准确预测的能力,并介绍了一种基于内容而不是基于位置的外部记忆访问方法。
May, 2016
此论文通过在新的问题 / 答案(QA)数据集 PopQA 上对 10 个模型和 4 种增强方法进行大规模的知识探测实验,旨在了解大型语言模型 (LMs) 在记忆事实知识方面的优劣,发现 LMs 在纽约市场上的市场地位相对较低,而检索增强的 LMs 在不需要检索的情况下可以显著地改善性能,并降低推理成本。
Dec, 2022
本文研究发现,为了在过量参数化情况下实现 100% 的准确率,神经网络可以训练出能够完美记忆训练数据的能力,即使在神经元数量要远小于训练样本数量的情况下依旧适用。
Sep, 2019
本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型,在多个基准测试和任务中展示了近似 kNN 查找技术,着重测试了代码和数学等领域,并证明了随着储存器大小的增加,性能将稳步提高。
Mar, 2022
本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力,发现这些模型的训练对标签噪声几乎没有影响,但并不适用于低资源任务,而基于原型网络的扩展则能提高识别低资源命名实体时的性能。
Apr, 2021
本文提出了一种新的反向传播实现,通过使用近似来显著减少内存使用,使用相对较低的精度近似,而不影响训练准确性,并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。
Jan, 2019
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023
通过采用特定实例的观点,本研究论文调查了神经网络的插值方法,引入了一个简单的随机算法,通过固定的有限数据集,高概率地构建了一个可以插值的三层神经网络,其所需参数数量与两个类别及其相互排列的几何属性有关,从而获得了与样本数无关的保证,并通过大量数值实验将洞察力与理论结果相联系。
Sep, 2023
本文研究了通过神经网络算法实现各种模型的多项式时间可学习性,证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式,以及学习某些内核空间,并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。
Nov, 2019