不存在一般学习者:语言模型及其双重优化
今天的大型语言模型(LLMs)可以生成连贯的,符合语法的、有意义的文本段落,但在如人类思维一样的实际语言使用中,大多数测试需要功能语言能力,从认知神经科学的证据中,我们显示出LLMs显示出令人印象深刻(虽然不完美)的正式语言能力的任务,但在需要功能能力的许多测试中失败了。
Jan, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
我们通过测试11种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提示。我们认为,语言和心智理论的互相关联可能解释了指令调整模型的增加:奖励考虑到对话者和语境的合作性交流。最后,我们呼吁在LLMs中对心智理论保持一个细致的观点。
Oct, 2023
通过对三种不同模型的测试(Bard、ChatGPT-3.5和ChatGPT-4)以及与人类结果的比较,研究了模型大小对于语言模型性能的影响,发现模型大小的增加可以提高性能,但语言模型仍不如人类敏感。
Apr, 2024
人们使用大型语言模型的目的,以及这些模型的部署决策、人类泛化功能的一致性,以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。
Jun, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现LLMs不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
本研究探讨了大型语言模型(LLMs)在理解人类认知和语言习得争论中的角色,指出人类和LLMs都不是通用学习者。文章提出LLMs通过双重优化过程提升性能,即通过训练优化以及类似自然选择的方式进行选择,强调LLMs的表现不能轻易对人类认知偏见在语言中的重要性进行评估。
Aug, 2024
本综述研究了大型语言模型(LLMs)与认知科学交叉领域的相似性与差异性,分析了LLMs的认知能力评估方法及其作为认知模型的潜力。主要发现是LLMs在认知科学研究中的应用提供了重要见解,并指出了LLMs在与人类认知对齐过程中的挑战及未来研究方向。
Sep, 2024
本研究探讨了大语言模型(LLMs)与人类认知过程之间的相似性与差异性,填补了这一领域的研究空白。文章提出了一种评估LLMs认知能力的新方法,并指出了LLMs作为认知模型的潜力。研究结果强调了LLMs在理解人工智能及人类智能方面的重要性,并提出了未来研究方向。
Sep, 2024
本研究探讨了大型语言模型(LLMs)与认知科学的交集,分析了LLMs与人类认知过程之间的相似性和差异性。研究的主要发现是,尽管LLMs表现出某些认知能力,但仍存在认知偏见与局限性,需要进一步研究和改进,以推动理解人工智能与人类智能的进步。
Sep, 2024