BriefGPT.xyz
大模型
Ask
alpha
关键词
knowledge storage
搜索结果 - 5
语言模型的物理学:第 3.3 部分,知识容量的规模律
通过多个受控数据集,我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外,我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。
PDF
3 months ago
记忆之外:语言模型中随机内存访问的挑战
通过合成任务,我们研究了生成式语言模型(例如 GPT-2)能否按顺序或随机访问其记忆,并发现记忆重述和置换等技术提高了随机访问能力,进而在问答任务中取得了显着的改进。
PDF
4 months ago
总结事实:LLMs 中事实回忆的叠加机制
基于 Transformer 的大型语言模型(LLMs)如何存储和检索知识?我们关注了这个任务的最基本形式 —— 事实召回,其中模型被要求在形如 “事实:斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现,基于事实召回的机制比之前认为
→
PDF
5 months ago
神经网络中的元(脱离上下文)学习
通过合成实验,我们发现了被称为 meta-OCL 的现象,该现象使 LLMs 更容易 “内部化” 广泛有用的文本的语义内容,并在适当的情况下使用它。我们在合成计算机视觉环境中进一步证明了 meta-OCL,并提出了两个假设:一个依赖模型在其
→
PDF
8 months ago
ACL
将知识与参数解耦,实现即插即用式语言建模
本文介绍了一种用可编辑、可扩展的键值存储器与不可编辑的模型参数分离的 PlugLM 预训练模型,并在三个不同的场景下进行了评估,证明了该设计选择的合理性。
PDF
a year ago
Prev
Next