CogGPT:在大型语言模型中释放认知动力
大型语言模型在认知科学领域引起了轰动,现在是时候对用于在这些模型或人类认知中进行科学推理的各种研究范式进行总结。我们回顾了几种新兴的研究范式 - GPT-ology、LLMs 作为计算模型以及 “硅采样”,并回顾了最近在这些范式下使用 LLMs 的论文。在这样做的过程中,我们讨论了它们的主张以及在这些不同范式下进行科学推理的挑战。我们强调了几个关于 LLMs 需要解决的重要问题,以推动我们的科学发展:闭源 vs 开源模型;(缺乏的)训练数据;并且在 LLM 研究中的可重复性,包括形成新任务 “超参数”(如指令和提示)的约定。
Jun, 2024
大型语言模型在人工智能领域取得了显著进展,然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具,包含七项认知心理学实验中衍生出的十项行为度量指标,并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外,本研究还探讨了提示工程技术的影响,发现链式思路提示能够改善概率推理,而退一步思考提示则促进了基于模型的行为。
Feb, 2024
通过 CogEval 协议系统评估了八种大型语言模型的认知地图和规划能力,发现尽管对于较简单结构的规划任务表现出明显的竞争力,但系统评估揭示了规划任务的显著失效模式,包括无效轨迹的幻觉和陷入循环。这些发现不支持大型语言模型具备即用型规划能力的观点。
Sep, 2023
本文是第一篇关于利用大规模预训练语言模型(LLMs)进行科学模拟的研究,聚焦于四个建模和模拟任务,分别评估 LLMs 的预期优势和局限性,并为模型构建者提供实用指南,包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。
Jun, 2023
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
通过使用大型语言模型结合动态个性生成方法,本研究探索并增强了人类思考的模仿能力,特别关注个性方面,在对话数据集上的推进训练使得动态个性生成方法(DPG)在生成个性时具有比传统方法更强的能力,从而超越了基于提示的 GPT-4 模型。
Apr, 2024
在本文中,我们通过提出评估大型语言模型在动态图中的时空理解能力的 LLM4DyG 基准,第一次系统地评估了 LLMs 在动态图中的时空信息理解能力,并通过广泛的实验分析了不同的数据生成器、数据统计、提示技术和 LLMs 对模型性能的影响。我们提出了一种名为 Disentangled Spatial-Temporal Thoughts (DST2) 的方法,用于增强 LLMs 在动态图中的时空理解能力。我们的主要观察是:1)LLMs 在动态图中具有初步的时空理解能力,2)随着图大小和密度的增加,动态图任务对 LLMs 的难度增加,但对时间跨度和数据生成机制不敏感,3)我们提出的 DST2 提示方法可以帮助提高 LLMs 在动态图中的时空理解能力。此外,数据和代码将在发布时开源。
Oct, 2023
经验表明,大型预训练语言模型的新认知能力使其成为认知科学理论的候选模型。本研究通过心理测量学测试选择四组任务,对十个热门预训练语言模型进行评估,发现无论模型大小,PLMs 的训练过程在人类认知发展的某个窗口期内表现出最高程度的一致性。在该窗口期之前,训练为模型提供了基础结构,使其能够迅速从经验中学习;而在该窗口期之后,训练似乎更多地用于工程目标而非科学目标。
Jul, 2024
DynaMind 是一种新颖的连续学习框架,旨在解决大语言模型(LLMs)的训练困难、知识融入问题,并提高输出准确性。通过引入记忆机制和模块化操作符,DynaMind 能够有效克服这些挑战。
Oct, 2023