语言生成系统的否定感知评估
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
Jun, 2023
大型语言模型在理解否定时表现亚优,本研究通过引入一个大规模自动生成的常识知识数据集,涉及到约 40 万个描述性句子,其中大约 2/3 的句子包含否定形式,使用零样本学习方法对现有开源语言模型进行测试,结果表明尽管模型对于肯定的句子有较高准确性,但在否定句子方面存在困难,缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能,但在处理否定方面仍然存在泛化能力不足的问题,突显出大型语言模型在否定理解和泛化方面仍面临挑战。
Oct, 2023
本文针对自然语言中否定句的建构,借助负面通用语句的反向学习目标,优化了 BERT 语言模型,将 negated LAMA 数据集的平均 top1 错误率降至 4%,并在 negated NLI 基准测试中看到了一些改进。
May, 2021
提出了一种基于 BERT 的学习评估指标 BLEURT,可以通过数千个训练实例建模人类判断,并使用数百万个合成实例的新型预训练方案来帮助模型泛化,提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。
Apr, 2020
本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用,并提出了一个新的自然数据集 MoNLI,其中集中了词汇蕴涵和否定的相关内容,通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果,同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。
Apr, 2020
研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法,结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数,并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。
Apr, 2021
本文探讨将迁移学习应用于处理生物医学领域的否定句及其范围分析问题,分析使用 BERT 作为模型的决策选择,并在 3 个数据集上获得了优秀的结果,超过了之前的最佳系统,其中包括 BioScope Corpus,Sherlock Dataset 和 SFU Review Corpus。我们还分析了模型在未经训练的数据集上的普适性。模型的令人满意的性能表明,迁移学习是解决生物医学领域问题的一种强大手段。
Nov, 2019
本文讨论了用于语言生成的生成对抗网络 (GANs) 模型的评估指标问题,认为现有的评估指标无法全面准确地反映模型更真实的表现,提出了一些更适合从质量和多样性方面评估 GAN 模型的新指标,并通过实验证明了相比传统语言模型 (LM),目前的 GAN 模型在语言生成方面的表现并没有明显优势。
Jun, 2018
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017