大型语言模型是否能像人类一样推断和产生分歧？

May, 2023

大型语言模型是否能像人类一样推断和产生分歧？

Can Large Language Models Infer and Disagree Like Humans?

Noah Lee, Na Min An, James Thorne

TL;DR本文研究大型语言模型在处理自然语言推理任务上的表现，并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性，结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。

Abstract

large language models (LLMs) have shown stellar achievements in solving a broad range of tasks. When generating text, it is common to sample tokens from these models: whether LLMs closely align with the human disagreement distribution has not been well-studied, especially within the sc

large language models natural language inference monte carlo reconstruction log probability reconstruction human disagreement distribution

发现论文，激发创造

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

基于 LLMs 的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现 LLMs 不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

语言模型与关键的语法构造符合人类判断

大型语言模型能否像人类一样进行语言普适性推断？通过重新评估 Dentella 等人的研究，我们发现，大型语言模型不仅总体上准确性很高，而且还能捕捉到人类语言判断的细微差异。

Jan, 2024

大型语言模型符合人们的期待吗？测量人类的普适能力函数

人们使用大型语言模型的目的，以及这些模型的部署决策、人类泛化功能的一致性，以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。

Jun, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

大型语言模型在与人类辩论的局限性

当前的研究论文测试了大型语言模型（LLMs）的可行性，作为人工代理人参与社会学实验中的对话活动，揭示了 LLMs 在辩论中的限制，以及其对人类的影响和能力。

Feb, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024