使用微调和上下文学习评估语言模型中的否定推理能力
本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用,并提出了一个新的自然数据集 MoNLI,其中集中了词汇蕴涵和否定的相关内容,通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果,同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。
Apr, 2020
本文探讨将迁移学习应用于处理生物医学领域的否定句及其范围分析问题,分析使用 BERT 作为模型的决策选择,并在 3 个数据集上获得了优秀的结果,超过了之前的最佳系统,其中包括 BioScope Corpus,Sherlock Dataset 和 SFU Review Corpus。我们还分析了模型在未经训练的数据集上的普适性。模型的令人满意的性能表明,迁移学习是解决生物医学领域问题的一种强大手段。
Nov, 2019
本文介绍了一种自然语言推理测试套件,以探索自然语言处理方法的能力,理解子句否定。该测试套件包含基于严格的语言学框架进行的否定类型和构造的注释,以及用于构造假设的操作。作者使用预训练语言模型进行实验,证明了此测试套件比现有的侧重于否定的基准更具挑战性,并展示了作者的注释如何支持对当前自然语言推理能力在否定和量化方面的更深入理解。
Oct, 2022
本文研究了如何使用跨语言的单词嵌入或通用依存关系,在中文数据集上测试神经模型以检测否定范围,并发现即使在单语环境中,建模语法仍然很有帮助,然而跨语言单词嵌入的帮助相对较小,分析了这一任务仍然存在困难的情况。
Oct, 2018
通过使用语义片段,作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳,在这些问题上进行微调,BERT-based 模型可以掌握所有逻辑和单调性片段,同时保持其在已有 NLI 基准测试的性能。
Sep, 2019
本研究介绍了两个新的数据集(NEG-1500-SIMP 和 ROLE-1500),并使用 GPT3 对其进行了扩展,以用作语言模型探测的基准测试。结果表明,较小规模的测试集可能会对研究结论产生影响,同时我们发现模型的性能受否定词的影响较大。
Mar, 2023
大型语言模型在理解否定时表现亚优,本研究通过引入一个大规模自动生成的常识知识数据集,涉及到约 40 万个描述性句子,其中大约 2/3 的句子包含否定形式,使用零样本学习方法对现有开源语言模型进行测试,结果表明尽管模型对于肯定的句子有较高准确性,但在否定句子方面存在困难,缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能,但在处理否定方面仍然存在泛化能力不足的问题,突显出大型语言模型在否定理解和泛化方面仍面临挑战。
Oct, 2023
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
Jun, 2023
本文提出了一种多级有监督对比学习框架 MultiSCL,该框架使用句子级和对级对比学习目标,在低资源自然语言推理任务中区分不同分类的句对。MultiSCL 采用数据增强模块和交叉注意力模块来获取对级表示,经实验证明,在低资源设置中,MultiSCL 的准确率比其他模型平均高 3.1%,且在文本分类的跨域任务中优于以前的最新方法。
May, 2022