大型语言模型符合人们的期待吗?测量人类的普适能力函数
大型语言模型能否像人类一样进行语言普适性推断?通过重新评估 Dentella 等人的研究,我们发现,大型语言模型不仅总体上准确性很高,而且还能捕捉到人类语言判断的细微差异。
Jan, 2024
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
本文研究大型语言模型在处理自然语言推理任务上的表现,并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性,结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。
May, 2023
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势,进一步探索其合作潜力。
Jun, 2024
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
本研究探索了大型语言模型在人机交互领域的表现,对比实际参与者的答案,结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好,但在判断人机行为差异方面成绩不佳,同时指出视觉模型无法完全抓住视频刺激的本质,且大型语言模型对不同沟通行为的评分和行为可取性分数较高。
Mar, 2024