恐怕语言模型未对歧义建模

Apr, 2023

We're Afraid Language Models Aren't Modeling Ambiguity

Alisa Liu, Zhaofeng Wu, Julian Michael, Alane Suhr, Peter West...

TL;DR本论文提出了一个基于语言学家注释的语言歧义数据集，并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明，这是一个极具挑战性的任务，现有的模型正确率仅为 32％，本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时，本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。

Abstract

ambiguity is an intrinsic feature of natural language. Managing ambiguity is a key part of human language understanding, allowing us to anticipate misunderstanding as communicators and revise our interpretations

ambiguity language models entailment relations pretrained lms multilabel nli model

发现论文，激发创造

将语言模型调整至明确处理歧义

为了处理口语中存在的不完整或模糊的话语，本论文提出了一种方法来使大型语言模型在面对模糊输入时能够处理，并通过实验证明，经过微调的模型在处理模糊输入的同时，在明确的问题上仍然具有竞争力。

Apr, 2024

人类和语言模型中的任务歧义

研究语言模型在模糊任务中的表现，提出新的 AmbiBench 测试集进行评估，并发现 175B 参数的模型和使用人类反馈数据进行训练可以在模糊分类任务上超过或接近人类的准确度，但仅有其中一个是不足的。同时，通过在少量模糊上下文示例上微调，可以显著提高没有大规模人类反馈训练的语言模型的准确性，为教授模型有效地处理模糊性问题提供了有希望的方向。

Dec, 2022

基于大型语言模型的机器翻译的有效消歧

通过利用大型语言模型，我们研究了在机器翻译中解决语义歧义的能力，并提出了两种改进方法，通过上下文学习和在精心策划的歧义数据集上的微调，我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统，为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。

Sep, 2023

大规模语言模型（LLMs）中的语义歧义分析

本研究旨在分析和讨论 ChatGPT 和 Gemini 等模型中的语言歧义，关注巴西葡萄牙语中的语义、句法和词汇歧义。通过创建一个包含 120 个歧义和非歧义句子的语料库，进行分类、解释和消除歧义。结果经过定性分析和基于回答准确性的定量评估，证明了即使是像 ChatGPT 和 Gemini 这样先进的模型在回答中也存在错误和不足，解释通常是不一致的。此外，准确性达到了 49.58％的峰值，表明有必要进行有监督学习的描述性研究。

Apr, 2024

自然语言处理中的模糊类型分类

近期的研究指出，NLP 系统在理解人类语言时可能会遇到困难，因为它们可能无法像人类自然地处理语言的歧义。本文提出了基于英语的歧义类型分类法，旨在帮助 NLP 分析，并通过对数据集和模型性能进行更精细的评估。

Mar, 2024

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

必要时澄清：通过与语言模型的交互解决多义性

我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义，我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果，并对模型的不确定性进行了估计，我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法，使系统能够在仅允许在 10％的示例上进行澄清时将性能提升两倍。

Nov, 2023

驾驭灰色地带：语言模型中的过度自信和不确定表达

本文探究了语言模型在解释和生成不确定表达时的行为，并发现当模型以确定性的语言输出时，模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。

Feb, 2023

ChatGPT 中的语言歧义分析

本文介绍语言歧义及其在现代自然语言处理中的相关性，并基于 ChatGPT 做了丰富的实证分析以揭示其优点和缺陷，同时提出最佳实践策略。

Feb, 2023

双向 Transformer：（西班牙语）上下文中的多义词的表示：新的词汇资源和实证分析

通过比较多种 BERT-based 语言模型中的语境化词嵌入，我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集，并收集了人类的相关性判断。结果显示，这些语言模型的语义表达在人类判断中捕捉到一些差异，但不能达到人类水平。与英语不同，我们发现在西班牙语中，模型规模与性能之间没有相关性。此外，我们还发现了目标名词消歧的陈规轨迹，并在英语中部分复制了这一结果。我们贡献了（1）一组包含人类相关性判断的西班牙语句子刺激数据集，以及（2）认识到语言模型规格（结构，训练方案）对语境化嵌入的影响。

Jun, 2024