本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力,并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布,但对于否定的组成较为困难。
May, 2023
本研究使用神经语言模型来近似人类的预测分布,发现强度相似性的可预期性是解释标度内和标度间变异的共同机制,并且这种预期在概念层面上解释跨标度变异。该研究表明,言语推理源自于对概念水平上备选项的基于语境的期望。
Apr, 2023
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
本研究探讨了预训练语言模型在把握物体的标量数量方面的表现情况及其在常识推理中的不足,发现语言模型能够捕获相当数量的关于数量的信息,但性能受上下文信息和数字知识的影响,文中提出了一个简单的标准化数字的方法,具有显著的结果改进。
Oct, 2020
通过与人类实验结果进行对比,使用先进的大型语言模型预测,本研究关注明确和嵌入的分明性推论以及常规数量意涵的三种推论,并发现模型结果与人类实验结果在这些推论的大幅差异以及精细差异方面基本一致。
May, 2024
这项研究使用 GPT-4 等大型语言模型探究了标量形容词的词汇语义和语用学的一个方面,即标量多样性。结果发现,这些模型对标量形容词的词汇语义有很好的理解,但对标量多样性的理解却不足。同时,对比了不同规模和复杂性的模型,发现较大的模型并不总是更好。最后,通过利用语言直觉和模型训练目标解释了探索结果。
Apr, 2024
研究使用神经模型捕捉词汇句法推理的能力。我们以事件事实预测任务为案例研究对象,并建立一个各种句法上下文中所有英语嵌入子句动词的事实判断数据集。我们使用这个数据集来探究当前最先进的神经系统的行为,揭示了这些系统在事实预测方面会出现某些系统性错误。
Aug, 2018
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
Jan, 2022
本文在构建议程推理和预设的诊断数据集后,评估了在 MultiNLI 训练的 BERT、InferSent 和 BOW NLI 模型学习进行实用推理的能力。结果表明,尽管 MultiNLI 中的很少数的偶合类型表示,但 BERT 可以绘制实用偶合,而 BOW 和 InferSent 则表现出较弱的实用推理证据。
Apr, 2020