大型语言模型中的范围模糊性

Apr, 2024

Scope Ambiguities in Large Language Models

Gaurav Kamath, Sebastian Schuster, Sowmya Vajjala, Siva Reddy

TL;DR研究了不同版本的自回归语言模型（GPT-2，GPT-3/3.5，Llama 2 和 GPT-4）如何处理涉及语义操作符的语义模糊句子，并与人类判断进行比较。发现几个模型对这些句子中的含义模糊很敏感，与人类判断相吻合，并且能够以高准确度（某些情况下超过 90%）识别出人类首选的解读。

Abstract

Sentences containing multiple semantic operators with overlapping scope often create ambiguities in interpretation, known as scope ambiguities

scope ambiguities language models semantic operators interpretation human judgments

发现论文，激发创造

恐怕语言模型未对歧义建模

本论文提出了一个基于语言学家注释的语言歧义数据集，并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明，这是一个极具挑战性的任务，现有的模型正确率仅为 32％，本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时，本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。

Apr, 2023

大型语言模型逐步理解句法有迷惑作用的句子：语义解释、句法重新分析和注意力

阅读临时模糊句子时，错误解释有时会一直存在，甚至超过消除模糊的点。本研究通过使用四种大型语言模型（LLMs）——GPT-2、LLaMA-2、Flan-T5 和 RoBERTa，以及在线和离线的测量方法，调查了对园路理解句子的处理和错误解释的命运。研究结果表明，当有额外的语法信息可以引导处理时，人类和 LLMs 在处理园路理解句子方面存在良好的一致性。

May, 2024

大规模语言模型（LLMs）中的语义歧义分析

本研究旨在分析和讨论 ChatGPT 和 Gemini 等模型中的语言歧义，关注巴西葡萄牙语中的语义、句法和词汇歧义。通过创建一个包含 120 个歧义和非歧义句子的语料库，进行分类、解释和消除歧义。结果经过定性分析和基于回答准确性的定量评估，证明了即使是像 ChatGPT 和 Gemini 这样先进的模型在回答中也存在错误和不足，解释通常是不一致的。此外，准确性达到了 49.58％的峰值，表明有必要进行有监督学习的描述性研究。

Apr, 2024

基于大型语言模型的机器翻译的有效消歧

通过利用大型语言模型，我们研究了在机器翻译中解决语义歧义的能力，并提出了两种改进方法，通过上下文学习和在精心策划的歧义数据集上的微调，我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统，为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。

Sep, 2023

您是一位专业的语言标注专家”：LLMs 作为抽象意义表达分析器的限制

通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果，研究发现这些模型能够可靠地重现 AMR 的基本格式，并且通常能够捕捉到核心事件、论证和修饰结构，但模型的输出容易出现频繁和重大错误，从整体上来看，即使在演示中，模型也几乎没有成功地产生完全准确的解析结果，这表明这些模型尽管能够捕捉到语义结构的某些方面，但在支持完全准确的语义分析或解析方面仍存在关键的局限性。

Oct, 2023

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

将大型语言模型与逻辑编程相结合，从文本中进行稳健和通用的推理

本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应，以及可应用于多个任务的可重用的知识模块，结合逻辑形式输入的答案程序，实现了在多项 NLP 基准测试上的最新性能，包括 bAbI，StepGame，CLUTRR 和 gSCAN，并成功解决了机器人规划任务，而大型语言模型单独无法解决。

Jul, 2023

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

零和少样本语义解析与模糊输入

本文引入 AmP 框架及数据集，通过五种常见语言歧义情形的数据生成和定义，研究模型处理歧义的表现。结果表明，大型预训练模型需要有明显指导才能捕捉可能意义的分布。因此，鼓励语言歧义被显式地包含在语义解析中，同时应在评估语义分析系统时考虑可能结果的分布。

Jun, 2023

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023