大型语言模型能否生成突出的负面陈述?
提出了一种新颖的自我检测方法,通过扩展问题的文本表达并收集相应的答案,检测大型语言模型(LLMs)是否会产生虚假回答,证明了该方法在 LLM 效果上的有效性。
Oct, 2023
大型语言模型在理解否定时表现亚优,本研究通过引入一个大规模自动生成的常识知识数据集,涉及到约 40 万个描述性句子,其中大约 2/3 的句子包含否定形式,使用零样本学习方法对现有开源语言模型进行测试,结果表明尽管模型对于肯定的句子有较高准确性,但在否定句子方面存在困难,缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能,但在处理否定方面仍然存在泛化能力不足的问题,突显出大型语言模型在否定理解和泛化方面仍面临挑战。
Oct, 2023
本研究探讨了大型语言模型在处理负常识知识时的能力,通过设计了一系列的受限关键词句子生成任务和布尔问答任务,发现大型语言模型在生成句子方面存在信仰冲突现象,即难以生成基于负常识的句子,但能够正确回答极性的是或否问题。我们的进一步分析表明,语言模型预训练中的统计和否定偏见报告是这种冲突的原因。
May, 2023
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
Jun, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
研究了大型语言模型中幻觉问题中否定的影响,发现在涉及否定的任务中,开源最先进的大型语言模型在虚构上存在严重的缺点,提出了多种减轻这些幻觉的策略并展示了它们的影响。
Jun, 2024
本研究探究了大型语言模型(LLMs)进行反事实生成和数据增强的能力,发现 LLMs 很有效的进行反事实生成,但因为自身限制和缺少实用逻辑指导,在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时,研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实,说明演示主要用于规范输出格式。因此,基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。
May, 2023
本研究发现,在处理否定提示的任务时,语言模型的大小与其零 - shot 表现之间不存在按比例的关系,而是一种倒数的规律,并指出目前的 LMs 和方法存在重要限制。作者呼吁学术界开发新的方法来开发真正遵循给定指令的 LMs,并提供了探索否定提示的代码和数据集。
Sep, 2022
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023