大型语言模型在高估重要性方面存在偏见

Oct, 2023

大型语言模型在高估重要性方面存在偏见

Large Language Models are biased to overestimate profoundness

Eugenio Herrera-Berg, Tomás Vergara Browne, Pablo León-Villagrá, Marc-Lluís Vives, Cristian Buc Calderon

TL;DR近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Abstract

Recent advancements in natural language processing by large language models (LLMs), such as GPT-4, have been suggested to approach Artificial General Intelligence. And yet, it is still under dispute whether LLMs

natural language processing language models reasoning abilities profoundness biases

发现论文，激发创造

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

大型语言模型是否表现出类似于人类的决策启发式？以 GPT-3.5 为例的案例研究

研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象，并发现 ChatGPT 在这些效应中表现出与人类相似的行为。

May, 2023

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型与反图灵测试

大型语言模型（LLMs）是自我监督的预训练模型，可适应广泛的自然语言任务，但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性，即它们表现出的智能实际上是镜像了面试官的智能，它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法，以实现人工智能的普遍自主权。

Jul, 2022

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022