实用推理为基础模型解开量词语义
研究语言环境对于预测量词(`few', `all')的作用。从人类参与者中收集众包数据,在单句和多句的情况下测试不同模型,发现模型在前者方面的表现显著优于人类,而在后者方面则仅略胜一筹。模型非常有效地利用了词汇和形态句法模式,而人类则更擅长真正理解(全局)语境的含义。
Jun, 2018
EQUATE是一种新的文本蕴含情景下的定量推理框架。我们使用9个现有的NLI模型对其进行基准测试,发现它们并未明确学习推理数量。我们提出一个基于符号计算的定量推理新基线Q-REAS,相对于最佳执行的NLI模型,其在数值推理测试上实现了成功,但在口头推理方面效果有限。
Jan, 2019
本文探讨自然语言理解模型处理量词单词的困难性,并基于广义量化器理论提出了一种语言无关的表示方法来解决这一问题。研究发现,与性能降低相关的频繁发生在自然语言理解基准测试中。同时,这篇文章还提出了对抗广义量化器的NLI任务(GQNLI),并发现预训练的语言模型对广义量化器推理缺乏鲁棒性。
Apr, 2022
本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力,并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布,但对于否定的组成较为困难。
May, 2023
本文探讨了大型语言模型在量词理解方面的能力,发现传统的测试方法导致了对LLM在few-type quantifiers上理解能力逆反缩放的错误认知。研究者提出了替代方法,发现随着模型规模的增加,LLM在量词理解方面的表现与之前的研究不同,并揭示了most-type quantifiers存在逆反缩放的特性,这与人类语言认知实验和以前的研究相反。
Jun, 2023
LLMs展示了对语义的出色理解能力,但在理解语用学方面常有困难。为了证明这一事实,我们发布了一个包含四个语用学现象的语用学理解基准(PUB)数据集,即合困推理、预设、参照和指示。我们为每个任务精选了高质量的测试集,包括多选题答案(MCQA)。PUB一共包含28k个数据点,其中6.1k个由我们创建,其余的则来自现有的数据集。我们评估了九个模型,参数数量和训练类型各异。我们的研究表明,对于较小的语言模型, fine-tuning能够显著提升其在遵循指令和聊天方面的语用学能力。然而对于较大的模型来说,基础版本与聊天适应版本的性能相当。此外,人类的能力和模型的能力之间存在明显的性能差距。此外,与人类在各种任务上的一致表现不同,模型在熟练度方面表现不稳定,性能水平因不同提示和任务复杂性而波动。总体而言,这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。
Jan, 2024
本研究介绍了MultiPragEval,一个旨在进行对LLMs的多语言语用评估的强大测试套件,跨越英语、德语、韩语和中文。MultiPragEval由1200个问题单元组成,根据Grice的合作原则及其四个对话准则进行分类,能够对LLMs的上下文意识和推断隐含含义的能力进行深入评估。我们的研究结果表明,Claude3-Opus在所有测试语言中明显优于其他模型,建立了该领域的最新技术。在开源模型中,Solar-10.7B和Qwen1.5-14B成为强大的竞争对手。这项研究不仅在LLMs的多语言评估中引领了道路,还为AI系统的高级语言理解所需的微妙的功能能提供有价值的洞见。
Jun, 2024
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查LLMs在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬误和演绎问题。我们的框架概述了一系列假设,其中令牌偏差很容易被识别,所有零假设均假设LLMs具有真正的推理能力。本研究的发现以统计保证表明,多数LLMs在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色,但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式,因此引发了对其实际推理和泛化能力的担忧。
Jun, 2024
对于大型语言模型在逻辑推断任务中的表现方式存在疑问,本文对先前关于大型语言模型在分析范畴三段论的逻辑推理能力方面的研究进行了系统概述,并总结了其推理范畴三段论有效性的性能。结果显示,解释量词似乎是限制语言模型性能的主要瓶颈,并值得更多关注。希望本研究不仅能提供对于范畴三段论当前文献的及时回顾,而且能激发更多跨学科研究,特别是计算语言学家和逻辑学家之间的合作。
Jun, 2024