可编辑神经网络
深度神经网络在学术界和工业界越来越普遍,在各个领域和相关任务上与人类的表现相媲美甚至超越。然而,即使是最大的人工神经网络也会出错,随着时间的推移,曾经正确的预测可能会失效。通过在数据集中增加考虑错误或最新信息的样本,可以解决这个问题。然而,灾难性遗忘现象对于改变神经网络参数中的隐性记忆知识以达到精确变化提出了挑战,通常需要重新训练整个模型才能实现所需的行为。这种方法昂贵、不可靠,并且与大规模自监督预训练的现行趋势不兼容,因此有必要找到更高效和有效的方法来适应变化的数据。为了满足这个需求,知识编辑作为一个新颖的研究领域正在兴起,旨在实现对预训练目标模型的可靠、数据高效和快速的变化,而不影响先前学到的任务上的模型行为。在本综述中,我们对这个最新的人工智能研究领域进行了简要回顾。首先,我们介绍了神经网络编辑的问题,在一个共同框架中对其进行了形式化,并将其与连续学习等更有名的研究分支进行了区分。接下来,我们对迄今为止提出的最相关的知识编辑方法和数据集进行了回顾,并将这些工作分为四个不同的类别:正则化技术、元学习、直接模型编辑和架构策略。最后,我们概述了与其他研究领域的一些交叉点和未来的潜在方向。
Oct, 2023
本文提出了一种名为 EGNN 的方法,它与 GNN 结合,通过将 MLP 与 GNN 简单拼接来订正模型在分类节点上的预测,以避免了 GNNs 中的邻居扩散的问题。实验证明,EGNN 在多个图数据集上的效果都比现有的基线更好,而且具有更好的想用性与更低的训练时间和内存占用。
May, 2023
本研究提出一种被称为 Transformer-Patcher 的神经网络模型,能够通过简单地添加和训练最后一层前馈网络中的少量神经元,连续纠正长序列中的错误,达到了顺序模型编辑(SME)的最优表现,解决了工业环境中部署的模型如何快速准确地修正错误问题。
Jan, 2023
本文研究分布式表征编辑的问题,并将神经编辑器与编辑编码器结合起来,可以学习表示编辑的重要信息,并用于将编辑应用于新输入。我们在自然语言和源代码编辑数据上进行实验,结果表明我们的神经网络模型学习捕捉了编辑的结构和语义。希望这个有趣的任务和数据源能够激发其他研究者进一步研究这一问题。
Oct, 2018
本研究开发了多种神经网络模型,利用合成数据测试模型的编辑模式学习能力,从原型生成下一步的编辑行为。文章提出了一种新颖的 “注意力” 和 “指针” 网络的组合模型能够最大化地提高性能和可伸缩性,应用结果初步证明了开发可以习得预测未来编辑的工具的可行性。
Apr, 2019
介绍了一种基于 Semi-Parametric Editing with a Retrieval-Augmented Counterfactual Model (SERAC) 的模型编辑方法,具备内存高、编辑表达能力强的特点,能够高效地处理基于问答、事实核查和对话生成的 3 种具有挑战性的语言模型编辑问题。
Jun, 2022
神经机器翻译需进行后编辑以提高翻译质量,后编辑可作为新的训练数据进行在线学习,本文提出新的优化算法并实验比较在线学习算法,结果表明翻译质量和工作量得到了显著提高。
Jun, 2017
采用预训练深度神经网络层作为基块构建多任务学习系统,通过动态选择相关的先验知识、模型参数和超参数进行自动调优,控制模型规模实现高质量模型与较小的规模之间的权衡,并在 10 个多样化的图像分类任务中,相对于标准调优,提高了平均精度 2.39%而使用了每个任务 47% 以上的参数。
May, 2022