knowledge storage | BriefGPT

关键词knowledge storage

搜索结果 - 5

语言模型的物理学：第 3.3 部分，知识容量的规模律
通过多个受控数据集，我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外，我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。
PDF3 months ago
记忆之外：语言模型中随机内存访问的挑战
通过合成任务，我们研究了生成式语言模型（例如 GPT-2）能否按顺序或随机访问其记忆，并发现记忆重述和置换等技术提高了随机访问能力，进而在问答任务中取得了显着的改进。
PDF4 months ago
总结事实：LLMs 中事实回忆的叠加机制
基于 Transformer 的大型语言模型（LLMs）如何存储和检索知识？我们关注了这个任务的最基本形式 —— 事实召回，其中模型被要求在形如 “事实：斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现，基于事实召回的机制比之前认为
PDF5 months ago
神经网络中的元（脱离上下文）学习
通过合成实验，我们发现了被称为 meta-OCL 的现象，该现象使 LLMs 更容易 “内部化” 广泛有用的文本的语义内容，并在适当的情况下使用它。我们在合成计算机视觉环境中进一步证明了 meta-OCL，并提出了两个假设：一个依赖模型在其
PDF8 months ago
ACL将知识与参数解耦，实现即插即用式语言建模
本文介绍了一种用可编辑、可扩展的键值存储器与不可编辑的模型参数分离的 PlugLM 预训练模型，并在三个不同的场景下进行了评估，证明了该设计选择的合理性。
PDFa year ago