- ACL正向陈述形式下的改写提升否定理解能力
负面词是一种常见的语言现象。然而,语言模型在许多自然语言理解任务(如问答和自然语言推理)中都面临负面词的挑战。本文中,我们尝试使用无否定的解释(即,没有负面申述的释义)来制定无差错策略,以使模型对负面词更加强大。关键是,我们的无否定解释是自 - 探索和解决涉及否定的 LMs 中的幻觉问题
研究了大型语言模型中幻觉问题中否定的影响,发现在涉及否定的任务中,开源最先进的大型语言模型在虚构上存在严重的缺点,提出了多种减轻这些幻觉的策略并展示了它们的影响。
- 排列质量函数的否定
提出了一种排列质量函数的否定方法,并验证了该否定方法的收敛性,研究了每次否定操作后的不确定性和差异性的变化趋势,并使用数值示例证明了该方法的合理性。
- 否定导致的强幻觉及其修复方法
針對語言模型在邏輯推理上的困難,本研究提出一種新的解決方案,將否定視為一個操作,並限制模型的潛在表示的演進,從而改進了模型在填充提示和自然語言推理任務中的性能。
- EMNLP这不是一个数据集:一个用于挑战大规模语言模型的大规模否定评估基准
大型语言模型在理解否定时表现亚优,本研究通过引入一个大规模自动生成的常识知识数据集,涉及到约 40 万个描述性句子,其中大约 2/3 的句子包含否定形式,使用零样本学习方法对现有开源语言模型进行测试,结果表明尽管模型对于肯定的句子有较高准确 - 评估逐步推理与词汇否定:一个对三段论的案例研究
大型语言模型在逐步推理指令(例如思维链提示)方面具有优势。在此基础上,它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面,重点关注难以处理的核心语言现象 —— 否定。通过引入几个受控设置(例如处 - 关于具有否定语义的序列模式的调查
该研究探讨了在顺序模式中使用否定符号的语义解释的直观性,并分析了用户对不同语义的认知。结果表明,两种语义较为直观,但与现有先进算法的语义并不一致,因此提出了对这种差异进行考虑的建议。
- 语言生成系统的否定感知评估
本研究旨在改进语言模型对否定词的敏感性,提出了一种基于否定词的 BLEURT 评估指标 NegBLEURT,并通过设计基于规则的句子否定工具和创建 CANNOT 数据集进行模型优化。结果表明,经过优化的模型在否定句上表现优于现有的评估指标, - 基于 xNot360 数据集的 GPT 负面情感检测评估分析
本研究评估了 Generative Pre-trained Transformer(GPT)模型,特别是 GPT-2、GPT-3、GPT-3.5 和 GPT-4 的否定检测性能,结论显示这些模型在否定检测中性能差异显著,GPT-4 的性能最 - 语言模型不抗拒否定:对否定基准测试的分析
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
- ACL通过 HEROS 揭示句子编码器评估的盲点
通过构建一个高质量的 SE 诊断数据集 HEROS,在系统比较了 60 多个监督和无监督的 SE 在 HEROS 上的表现后,我们发现大多数无监督的句子编码器对否定不敏感,并且发现用于训练 SE 的数据集是决定 SE 认为哪些句子对相似的主 - NevIR: 神经信息检索中的否定
该研究构建了一个主题为否定形式对神经信息检索的影响的基准测试数据集,发现跨编码器表现最好,晚交互模型次之,对数器和稀疏神经架构最差。同时研究表明,当存在否定形式时,大多数当前的信息检索模型表现相似或不佳,而本研究在对比文本数据集的继续优化和 - 开放世界知识库中的完整性、召回率和否定性:一项调查
本文介绍了有关知识库的完整性、回溯和否定的表示、提取和推断的方法,以及对应的方法及其工作原理的基本方法,并针对两类受众提出了解决不完备知识库方面的建议。
- 更大的探针讲述了不同的故事:通过上下文学习扩展心理语言学数据集
本研究介绍了两个新的数据集(NEG-1500-SIMP 和 ROLE-1500),并使用 GPT3 对其进行了扩展,以用作语言模型探测的基准测试。结果表明,较小规模的测试集可能会对研究结论产生影响,同时我们发现模型的性能受否定词的影响较大。
- 否定和谓词创造中的泛化
该研究介绍一种归纳逻辑编程方法,结合否定和谓词发明,以应对从少量例子中推广的挑战,在多个领域的试验结果表明,该方法改善了预测精度和学习时间。
- MAQA: 一个用于否定多模态问答的基准数据集
该研究旨在评估多模态转换器是否可以执行复杂的推理来识别新概念作为先前学习的概念的否定,研究通过描述一种使用音频集中标注的音乐视频的多模态问答基准测试和一种新型数据生成程序确定了这种方法的有效性。
- EMNLPCONDAQA: 一个针对否定逻辑推理的对比阅读理解数据集
该研究介绍了 CONDAQA,这是第一个要求关于段落中否定语句涵义的英语阅读理解数据集,它挑战现有的自然语言理解系统,具有多样化的否定提示符,重点精心设计了具有谐音、范围变化和否定转变的三种编辑方式,细致构建了一系列难以回答的问题 - 答案 - EMNLP利用否定中的积极解释来提高自然语言理解
通过自动搜集否定语句及其肯定解释,本文提出了一种基于神经网络的生成模型,使得 RoBERTA 分类器在自然语言推理和情感分析任务中得到更好的结果。
- ACL另一种否定基准测试:NaN-NLI 分层否定测试套件
本文介绍了一种自然语言推理测试套件,以探索自然语言处理方法的能力,理解子句否定。该测试套件包含基于严格的语言学框架进行的否定类型和构造的注释,以及用于构造假设的操作。作者使用预训练语言模型进行实验,证明了此测试套件比现有的侧重于否定的基准更 - 利用针对否定的预训练来改善否定检测
本文提出了一种新的针对否定语的预训练策略,包括有针对性的数据增强和否定掩蔽,以更好地将否定信息纳入语言模型。在常见的基准测试中进行的广泛实验显示,我们提出的方法提高了否定检测性能和泛化能力,超过了强基线 NegBERT (Khandewal