在 GPT-3 和 GPT-4 中测试词义的因果模型
该论文比较人类和 ChatGPT(GPT-3.5 和 GPT-4)在各种词汇概念特征或维度上的词汇概念表示,结果表明 LLM 可以在某些抽象维度上表现得与人类相似,但在感官和运动领域,GPT-3.5 表现较弱,而 GPT-4 在这方面有了显著进展,但仍然存在一些不足。此外,研究还发现,GPT-4 的进步主要源于其在视觉领域的训练。研究还发现,某些概念表示的方面似乎与感官能力相互独立,但其他方面似乎需要它们。
May, 2023
通过对 GPT-3 模型的测试,我们发现大型语言模型(LLMs)可能会出现几种人类认知效应,包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应,但缺乏锚定效应。我们描述了我们的方法学,并讨论了 GPT-3 出现这些效应的可能原因以及它们是模拟还是重新创造的问题。
Aug, 2023
本文研究 GPT-2 语言模型在完成句子任务时对本土语音者的暗示因果直觉掌握程度,验证了早期的结果并研究了性别、动词词频对模型表现的影响,并开发了避免模型生成的非正常语言影响人工评判的方法学。
Dec, 2022
通过对开源大语言模型进行微调,我们提出了 LLM4Causal,它能够识别因果任务、执行相应的函数并解释其数值结果,同时我们还提出了一种数据生成过程,用于更可控的 GPT 提示,并提供了两个指令微调数据集:因果检索基准和因果解释基准。通过三个案例研究,我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示,它在给定查询时具有寻找正确因果任务的显著能力。
Dec, 2023
ChatGPT 是如何运作并具备超过预期能力的?本文通过与 ChatGPT-4 对话的方式,对 ChatGPT 作出解释,包括与语言自身相关的良性偏见、语言的间接语义基础以及神经网络中的类别学习等。
Feb, 2024
通过构建 LLM 级联模型来实现节约成本,特别是在推理任务中的使用,通过应用弱一些但更便宜的 LLM 来解决简单问题,只有复杂问题才需要更强大且更昂贵的 LLM,实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度,并提出了几种答案采样和一致性检查的方法,其中有一个利用了两种思考表示(Chain-of-Thought 和 Program-of-Thought)的混合方法,在六个推理基准数据集上的实验证明,我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能,但仅需 40% 的成本。
Oct, 2023
该研究探究了大型语言模型(LLM)在机械工程领域特别是力学方面解答概念性问题的能力。通过对比三种 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4)和 Claude(Claude-2.1))在不同力学主题下的回答表现,发现 GPT-4 在除连续介质力学外的各力学领域问题中表现优异,这表明 GPT 模型在处理符号计算和张量分析方面具有潜在的未来改进空间。研究还发现,通过事先给出解释的提示,LLM 的性能都得到了显著提升,突出了提示工程的重要作用。值得注意的是,GPT-3.5 在涵盖更广泛领域的提示下表现出改进的表现,而 GPT-4 在专注于特定学科的提示下表现出色。最后,GPT-4 在减少输入偏差方面取得了显著进展,从人类猜测偏好的情况来看。该研究揭示了 LLM 作为高水平知识助手在机械工程教学和科学研究中的巨大潜力。
Jan, 2024
研究 GPT-3 对英语名词复合词的解释是否遵循同样的概念原则,通过实验和构建提示,没有找到令人信服的证据来证明 GPT-3 的解释不仅限于单个词汇项目。
Oct, 2022