构建一位哲学家的大型语言模型
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
近期,大型语言模型(LLMs),如 GPT-4,在自然语言处理方面取得了显著进展并接近人工通用智能。然而,本研究对 GPT-4 和其他 LLMs 进行评估,评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现,无论是什么类型的陈述和提示技术,LLMs 与人类之间存在显著的陈述一致性。然而,LLMs 系统地高估了无意义陈述的深度,除了 Tk-instruct 外,它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类,而非思维链式的提示将 LLMs 的评分远离人类。此外,本研究揭示了强化学习来自人类反馈所引发的潜在偏见,即高估陈述的深度。
Oct, 2023
通过评估 GPT-4,一个尖端的大型语言模型,在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力,它未展现出之前接触过这些隐喻的迹象,但提供了详细而深刻的解释,被盲审的人员(不知道涉及 AI 模型的事实)将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释,这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。
Aug, 2023
提出了一种 benchmark 以衡量语言模型在生成答案时是否真实,测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型,发现最好的模型能够在 58%的问题上保持真实,建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。
Sep, 2021
本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现,着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力,暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。
Feb, 2023
大型语言模型,如 GPT-4,在广泛的基于语言的任务中取得了显著的熟练度,这些任务中有些传统上与人类智能的标志相关联。这引发了关于我们能否将任何语言模型归属于语言或认知能力的程度的持续争议。本文是两篇相关论文的第一部分,旨在为哲学家提供关于语言模型的介绍,并对其与哲学、认知科学、人工智能和语言学领域中经典辩论的重要性进行主观调查。我们涵盖的主题包括语言的组成性、语言习得、语义能力、基础、世界模型和文化知识的传输。我们认为,语言模型的成功挑战了人们对人工神经网络的一些长期假设。然而,我们还强调了进一步的实证研究以更好地了解它们的内部机制的需要。这为第二部分的相关论文提供了基础,第二部分将探讨关于语言模型最新发展引发的新的实证方法和哲学问题。
Jan, 2024
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
在 2020 年 10 月 14 日,来自 OpenAI、斯坦福人文中心人工智能研究所和其他大学的研究人员聚集一起,讨论关于 GPT-3 的开放式研究问题,主要聚焦于大型语言模型的技术能力和社会影响。
Feb, 2021
评估了 OpenAI 的 GPT-3.5 作为一种 “语言数据科学家”(LDS) 的能力,通过评估其在多个标准上的性能,包括与诸如 NumPy、Pandas、Scikit-Learn 和 TensorFlow 等库相关的数据科学代码生成任务,证明了利用大型语言模型进行低级、零样本数据分析的巨大潜力。
Mar, 2024