记忆增强生成对抗变换器

Feb, 2024

Memory-Augmented Generative Adversarial Transformers

Stephan Raaijmakers, Roos Bakker, Anita Cremers, Roy de Kleijn, Tom Kouwenhoven...

TL;DR本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题，并展示了该方法在处理事实问题和风格适应应用中的实用性。

Abstract

conversational ai systems that rely on large language models, like transformers, have difficulty interweaving external data (like facts) w

conversational ai systems large language models transformers memory bank generative adversarial network

发现论文，激发创造

修改 Transformer 模型中的记忆

本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Dec, 2020

使用基于 KNN 的复合记忆增强对话的 Transformer

本研究旨在利用机器学习方法，通过增加 KNN-Based Information Fetching (KIF) 模块，将外部知识进行存储，并将其应用在 Dialog Modeling 中，以此提高自动和人类评估的模型性能。

Apr, 2020

知识注入的自注意力变换器

本论文旨在提出一种有系统的方法将外部知识图谱融入 Transformer 模型中，以解决在语言模型中存在的幻觉和对人类用户生成无用和不安全输出的问题，并在 GLUE 基准测试任务上进行大量实验证明其有效性。

Jun, 2023

用于对话建模的状态性记忆增强变压器

本研究提出一种新的记忆增强型 Transformer 模型，该模型可在不影响对话历史信息的情况下适应长序列处理，并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。

Sep, 2022

使用 Transformer 模型的有条件生成聊天机器人

本文深入探讨了 Chabot 生成器及其生成的答案精度不足的挑战问题，并提出了一种新的端到端架构，利用 Wasserstein 生成敌对网络和变压器模型，同时在生成器和鉴别器模型中使用嵌入式变压器，以提高 Chabot 应答的准确性。实验结果表明，相比于现有的技术，该架构更加优越，尤其是在对于 Cornell 电影对话语料库和 Chit-Chat 数据集上的表现中体现更加明显。

Jun, 2023

扩展心智转换器

预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法，使用记忆转换器给模型提供预先计算的记忆库，通过批判性评估定位编码应如何更新以检索关键信息，而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性，并公开了一个新的反事实长距离检索基准。实验证明，扩展心智转换器在平均性能上超过了当今的最先进水平。

Jun, 2024

使用小型模型进行非监督自然问答

本文描述了一个架构，利用原始外部知识，基于无监督学习的技术，使得更小的模型可以回答与事实有关的问题，其目的在于能够显式地添加知识，而无需进行大量的训练。

Nov, 2019

人类记忆与深度语言模型：模型增强相关假设的联系

该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型，并以惊奇度作为交叉连接假设模型进行实证研究，并识别该方法的局限性以指导未来的研究。

Oct, 2022

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

具有句法信息的异构图变换器问答

本研究探讨了如何在不需要从头开始的情况下，在预训练的神经语言模型中添加显式的语言学信息，以提高其性能，并提出了一种基于转换器的神经语言模型，通过异构图转换器对模型进行扩展和微调，这可以通过添加句法信息来实现，而基于斯坦福问答数据集的实证性能评估表明了该方法的竞争性。此方法包括语义和语用方面的信息，具有可扩展性。

Apr, 2022