揭示语言模型能力结构
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
在本文中,我们利用大语言模型(LLMs)的能力作为运行示例,借鉴能力的大量哲学文献,发展了一个能有效应用于模型评估的机器学习模型能力的条件分析(CAMA)的核心提案,在机器学习的背景下对 CAMA 进行了精确定义,从而实现了适用于 LLMs 的 CAMA 操作。然后,我们运用 CAMA,展示它能够有助于理解机器学习模型评估实践的各种特征,并提出了进行公正的模型间比较的程序。
May, 2024
FAC$^2$E 是一个针对大型语言模型 (LLMs) 的能力评估框架,通过提取 LLMs 的中间推理,将特定能力应用过程分解为三个子步骤,并评估每个细分能力的各个子步骤,从而全面区分 LLMs 的语言相关能力和认知相关能力。利用 FAC$^2$E,我们发现模型中知识利用方面存在常见不足,并提出了一种简单、知识增强的方法来缓解这个问题。我们的研究不仅展示了有希望的性能改进,还为未来 LLMs 的发展方向提供了启示。
Feb, 2024
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
Jul, 2023
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
该研究通过分析和比较大型语言模型(LLMs)与马丁・海德格尔 “实用存在” 和 “现成存在” 概念之间的相似之处,以及通过基于海德格尔对真理的概念的结构性分析,探讨了 LLMs 在人类推理过程中的位置和局限性,发现尽管 LLMs 在某些推理能力上表现出色,但其与人类智力能力的匹敌还未实现。此研究丰富了我们对 LLMs 的理解,并推动了人工智能潜力与限制的讨论,为未来对人工智能发展趋势的探索铺平了道路。
Mar, 2024
该研究以百川 - 7B 和百川 - 33B 为焦点,深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律,揭示了认知能力在预训练阶段建立,而表达能力主要在微调和强化学习阶段提升的顺序性发展模式,并探索了这些差异发展轨迹与 LLMs 的架构设计之间的理论基础,同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用,从而为培训过程的可解释性和可控性提供了有价值的洞见。
May, 2024