本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型,在多个基准测试和任务中展示了近似 kNN 查找技术,着重测试了代码和数学等领域,并证明了随着储存器大小的增加,性能将稳步提高。
Mar, 2022
通过一系列干预措施,研究表明使用更少的长时记忆和限制网络低层的注意力范围,可以实现与 Transformer-XL 相当的性能,并且可以获得更好的性能。
Jul, 2020
本文提出了一个新任务,即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识,并在此任务上基准化了几种方法,发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段(如预训练和微调)对记忆和知识修改所起作用的见解。
Dec, 2020
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Oct, 2023
本研究提出一种新的记忆增强型 Transformer 模型,该模型可在不影响对话历史信息的情况下适应长序列处理,并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。
Sep, 2022
提出了 Efficient Memory-Augmented Transformer (EMAT) 作为一种结合参数式模型和检索式增强模型的方法,有效地利用外部知识源以提高自然语言处理任务的准确性和计算效率。通过将外部知识编码为键值内存,并利用内积搜索来查询,使用预训练任务编码有信息的键值表示,并学习将多个内存插槽集成到变压器中的隐式策略,EMAT 在众多知识密集型任务上取得了更准确的结果。
Oct, 2022
使用预训练 Transformers 并扩展它们与 Adapters,我们开发了一种方法来增量训练模型处理任务序列,成功地避免了灾难性遗忘并且在多个任务上表现良好。
本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题,并展示了该方法在处理事实问题和风格适应应用中的实用性。
Feb, 2024
本研究介绍一种基于缓存优化技术的变压器模型加速方案,通过建立基于大内存系统的注意力数据库来加速注意力计算,从而实现了平均 21%的性能提升(最高 68%),并且在推理准确性上有可忽略的损失。
Jan, 2023