探究 LLMs 对语言类别的联合编码
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着 LLMs 在基准任务上性能的提高,它们不仅在预测 LLM 嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同 LLMs 的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和 LLMs 语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越 Borel 层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023
大型语言模型中的词汇语义在不同层次上具有不同的演化形式,较低层次的表示编码了词汇语义,而较高层次的表示则更适用于预测任务。
Mar, 2024
通过探究任务,我们在本文中首次尝试研究大型语言模型(LLMs)的逐层能力,并利用 ChatGPT 的生成能力构建了探测数据集,以提供与各种事实相对应的多样且一致的证据,结果表明 LLMs 在编码上下文知识方面更倾向于将更多知识码在上层,首先将知识与实体标记在较低层编码,然后在上层逐渐增加其他标记中的知识,并在提供无关证据时逐渐忘记中间层保留的较早的上下文知识。
Feb, 2024
本研究针对 6 种不同语言和 5 种不同词汇任务,对单语和多语言源 LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析,并验证了较低变压器层携带更多类型级词汇知识的主张。
Oct, 2020
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。
Feb, 2024
我们提出了一种基于联合矩阵分解的分析工具,用于比较多语言和单语言模型的潜在表示。我们使用这个工具,研究了多语言预训练模型学习的表示中在何种程度上和如何反映了形态句法特征。通过对 33 种语言和 17 种形态句法类别进行大规模实证研究,我们发现不同的形态句法信息在不同层次的编码中存在差异,这些差异受到语言属性的影响。对分解输出进行层次聚类得到了一棵树状结构,与由语言学家手工制作的系统发生关系的系统发生树。此外,我们发现分解输出与不同的跨语言任务中观察到的性能之间存在强关联。我们发布了我们的代码以促进未来的研究。
Oct, 2023
这篇论文提出了一种能够评估预训练语言模型在捕捉复杂的分类关系方面能力的无任务评估方法,并通过实验证明预训练语言模型隐式编码的词汇 - 语义知识并未始终捕捉到层次关系。此外,作者进一步展示了注入这种评估方法能够改善预训练语言模型对层次关系的理解,并通过对分类体系重构、上位词发现和阅读理解任务的评估表明,层次结构的知识在不同任务间有一定的但不系统的传递性。
Dec, 2023