语言模型的物理学:第 3.2 部分,知识操作
通过对半合成的传记数据进行深入研究,我们发现大语言模型的知识提取能力与训练数据的多样性之间存在着关联,同时通过 (几乎) 线性推测发现模型是否线性地编码实体名称的隐藏嵌入中的知识属性,或者在训练文本中其他标记的嵌入之间存在着强相关性。
Sep, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
提出了 IRCoT 方法,在多步 QA 过程中使用检索和 CoT 交替进行,同时使用检索的结果来改善 CoT。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 IIRC 四个数据集上,使用 IRCoT 方法取得了显著的检索和 QA 性能改进,即便是在小型模型 T5-Flan-large(0.7B)上也能奏效。
Dec, 2022
通过多个受控数据集,我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外,我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。
Apr, 2024
本文通过使用反事实条件句,利用心理语言学实验和更大规模的数据集,对比了多种流行的预训练语言模型中的反事实预测,并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时,只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。
Dec, 2022
大型语言模型在知识提取、推理和对话方面显示出与人类相似的表现,但是它们的表现究竟是通过记忆和模式匹配来解释的,还是反映了人类般的推理语义和世界知识,存在争议。本文展示了大型语言模型学习以类似于知识库的方式组织概念,这些知识库提供了推理语义和世界知识的大规模高质量表征。大型语言模型似乎从原始文本中引出这种知识,而更大更好的模型表现出更符合人类的概念组织,涵盖了四个系列的语言模型和三个知识图谱嵌入。
Aug, 2023
通过对 GPT-4 在规划子领域中的表现进行全面检查,我们鉴定了大型语言模型在解决规划问题方面的优势和限制,并提出了改进领域特定大型语言模型的思维链能力的方法。这些结果为大语言模型在规划领域的潜在应用提供了宝贵的见解,并为未来的研究克服其限制和拓展其能力铺平了道路。
Sep, 2023
语言模型的能力与人类在语法判断任务中的重叠度已被讨论,但当人类在语言处理中系统性地出现错误时,我们是否应该期望语言模型像语言认知模型一样模仿人类行为?通过研究与 “语言幻觉” 相关的语言模型更微妙的判断,本文回答了这个问题。研究发现,与需要复杂语义理解的比较幻觉和深度冲击幻觉相比,语言模型所代表的概率更可能与人类对结构依赖的 “负极性项目幻觉” 误判一致。没有一个单独的语言模型或度量方法能完全一致地与人类行为相符。最终,本文展示了语言模型在作为人类语言处理的认知模型以及识别复杂语言材料中微妙但关键信息的能力受到限制。
Nov, 2023