否定和矛盾的常识含义
ATOMIC是一种以常识推理为组织形式的图表,其中包括了877k个基于变量的if-then关系类型,使用这种类型,神经模型可以获得简单的常识能力并进行推理,证实了将多任务模型引入到if-then关系结构中可以得到比独立训练的模型更准确的推论。
Oct, 2018
为了能让对话式AI系统拥有更自然和广泛的对话,需要更多常识,包括识别对话伙伴的不明说的假设。本研究提出了一个基于神经符号定理证明器的多跳推理链提取方法来理解这类不精确陈述的自然语言命令,并提供一个交互式对话框架来从人类中挖掘常识知识来完善其推理链。
Jun, 2020
这篇论文介绍了一个新的自然语言推理挑战——ConjNLI,用于测试具有不同布尔和非布尔推理的含多个并列连词(“and”,“or”,“but”,“nor”)、量词和否定语的结合句子的理解能力。研究表明,像RoBERTa这样的预训练语言模型在理解这种句子的语义时仍存在挑战,目前呼吁对于并列的更好理解和处理的未来的工作。
Oct, 2020
提出了一个称为ROCK的新颖框架,它将常识因果推理(CCR)任务通过潜在结果框架迁移到观察研究和自然语言处理中。该框架利用时间信号作为偶然监督,通过类似于倾向得分的时间倾向性来平衡混淆效应。实现是组合和零样本且具有良好的CCR能力。
Jan, 2022
本研究探讨了大型语言模型在处理负常识知识时的能力,通过设计了一系列的受限关键词句子生成任务和布尔问答任务,发现大型语言模型在生成句子方面存在信仰冲突现象,即难以生成基于负常识的句子,但能够正确回答极性的是或否问题。我们的进一步分析表明,语言模型预训练中的统计和否定偏见报告是这种冲突的原因。
May, 2023
研究探讨了ChatGPT在理解语言方面的局限性,着重于对于通常对人类来说很容易但对该模型来说具有挑战性的简单推理任务的限制,研究结果表明,虽然ChatGPT在某些领域具有语言理解的能力,但是其对于一些特定类型的蕴含有所盲区,该研究强调了更多的对LLMs(大型语言模型)语言理解和推理能力的研究,以提高其可靠性,确立其在实际应用中的可信度。
May, 2023
通过使用 GPT 编译了一个新的合成数据集 ConvoSense,在对话语境中进行常识推理,具有更大的上下文新颖性、更多的推理数量和推理所传达的详细信息丰富,使得针对对话的生成式常识模型在产生合理且具有高新颖性推理时优于之前的数据集训练的模型。据我们所知,ConvoSense 是首个以如此大规模提供如此多新颖推理的数据集。
Jan, 2024
通过从现有的常识知识图谱(CSKG)中采样多跳逻辑查询,并使用手工规则和大语言模型进行言语化,我们提出了COM2(复杂常识)数据集,训练于此的语言模型在复杂推理能力方面取得了显著提升,从而在问题回答和生成常识推理的任务中表现出了增强的零样本性能,而无需昂贵的人工注释。
Mar, 2024
基于提示的方法在自然语言处理领域越来越受关注,并在许多下游任务中显示出其有效性。然而,鲜有研究探索这些方法在逻辑推理方面的能力。本研究针对提示方法在一阶逻辑推理方面的有效性进行研究,发现其中的瓶颈问题在于逻辑否定。根据我们的分析,逻辑否定往往导致与负回答的虚假相关性,而没有逻辑否定的命题则与正回答相关。为了解决这个问题,我们提出了一种简单而有效的方法,即Negation Augmenting and Negation Debiasing(NAND),该方法引入了负命题到基于提示的方法中,而无需更新参数。具体而言,这些负命题通过为所有实例提供“不”来抵消虚假相关性,使模型不能仅通过表达式中是否包含逻辑否定来做决策。在三个数据集上的实验证明,NAND不仅解决了逻辑否定校准的问题,还显著增强了基于提示方法在逻辑推理方面的性能,而无需重新训练模型。
May, 2024