本文提出了一个新任务,即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识,并在此任务上基准化了几种方法,发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段(如预训练和微调)对记忆和知识修改所起作用的见解。
Dec, 2020
本研究旨在利用机器学习方法,通过增加 KNN-Based Information Fetching (KIF) 模块,将外部知识进行存储,并将其应用在 Dialog Modeling 中,以此提高自动和人类评估的模型性能。
Apr, 2020
本论文旨在提出一种有系统的方法将外部知识图谱融入 Transformer 模型中,以解决在语言模型中存在的幻觉和对人类用户生成无用和不安全输出的问题,并在 GLUE 基准测试任务上进行大量实验证明其有效性。
Jun, 2023
本研究提出一种新的记忆增强型 Transformer 模型,该模型可在不影响对话历史信息的情况下适应长序列处理,并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。
Sep, 2022
本文深入探讨了 Chabot 生成器及其生成的答案精度不足的挑战问题,并提出了一种新的端到端架构,利用 Wasserstein 生成敌对网络和变压器模型,同时在生成器和鉴别器模型中使用嵌入式变压器,以提高 Chabot 应答的准确性。实验结果表明,相比于现有的技术,该架构更加优越,尤其是在对于 Cornell 电影对话语料库和 Chit-Chat 数据集上的表现中体现更加明显。
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
本文描述了一个架构,利用原始外部知识,基于无监督学习的技术,使得更小的模型可以回答与事实有关的问题,其目的在于能够显式地添加知识,而无需进行大量的训练。
Nov, 2019
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
本研究探讨了如何在不需要从头开始的情况下,在预训练的神经语言模型中添加显式的语言学信息,以提高其性能,并提出了一种基于转换器的神经语言模型,通过异构图转换器对模型进行扩展和微调,这可以通过添加句法信息来实现,而基于斯坦福问答数据集的实证性能评估表明了该方法的竞争性。此方法包括语义和语用方面的信息,具有可扩展性。
Apr, 2022