语言模型与关键的语法构造符合人类判断
人们使用大型语言模型的目的,以及这些模型的部署决策、人类泛化功能的一致性,以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。
Jun, 2024
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
本文研究大型语言模型在处理自然语言推理任务上的表现,并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性,结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。
May, 2023
本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现,着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力,暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。
Feb, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
语言模型的能力与人类在语法判断任务中的重叠度已被讨论,但当人类在语言处理中系统性地出现错误时,我们是否应该期望语言模型像语言认知模型一样模仿人类行为?通过研究与 “语言幻觉” 相关的语言模型更微妙的判断,本文回答了这个问题。研究发现,与需要复杂语义理解的比较幻觉和深度冲击幻觉相比,语言模型所代表的概率更可能与人类对结构依赖的 “负极性项目幻觉” 误判一致。没有一个单独的语言模型或度量方法能完全一致地与人类行为相符。最终,本文展示了语言模型在作为人类语言处理的认知模型以及识别复杂语言材料中微妙但关键信息的能力受到限制。
Nov, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
通过对实验文本进行语言模式的分析,发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性,但是在情境学习的环境下,大型语言模式与人类的偏见适应存在差异。
May, 2023
我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题,它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误,并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性,并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。
May, 2024