关于模糊确指的推理

EMNLPOct, 2023

Reasoning about Ambiguous Definite Descriptions

Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen

TL;DR利用模糊的限定描述创建并发布基准数据集，展示自然语言推理在解决上下文相关歧义中的作用及大规模语言模型在此方面的挑战。

Abstract

natural language reasoning plays an increasingly important role in improving language models' ability to solve complex language understanding tasks. An interesting use case for reasoning is the resolution of cont

natural language reasoning language models context-dependent ambiguity explicit reasoning benchmark dataset

发现论文，激发创造

恐怕语言模型未对歧义建模

本论文提出了一个基于语言学家注释的语言歧义数据集，并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明，这是一个极具挑战性的任务，现有的模型正确率仅为 32％，本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时，本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。

Apr, 2023

人类和语言模型中的任务歧义

研究语言模型在模糊任务中的表现，提出新的 AmbiBench 测试集进行评估，并发现 175B 参数的模型和使用人类反馈数据进行训练可以在模糊分类任务上超过或接近人类的准确度，但仅有其中一个是不足的。同时，通过在少量模糊上下文示例上微调，可以显著提高没有大规模人类反馈训练的语言模型的准确性，为教授模型有效地处理模糊性问题提供了有希望的方向。

Dec, 2022

必要时澄清：通过与语言模型的交互解决多义性

我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义，我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果，并对模型的不确定性进行了估计，我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法，使系统能够在仅允许在 10％的示例上进行澄清时将性能提升两倍。

Nov, 2023

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023

使用语言模型提示的推理：一项调查

本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查，介绍与比较了相关研究工作，并提供系统化的资源以帮助初学者，同时讨论了产生此类推理能力的潜在原因和未来的研究方向。

Dec, 2022

基于大型语言模型的机器翻译的有效消歧

通过利用大型语言模型，我们研究了在机器翻译中解决语义歧义的能力，并提出了两种改进方法，通过上下文学习和在精心策划的歧义数据集上的微调，我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统，为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。

Sep, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

CLAMBER: 在大型语言模型中识别和澄清模糊信息需求的基准

通过引入 CLAMBER，本研究构建了一个评估大型语言模型（LLMs）的基准，发现当前 LLMs 在识别和澄清用户不确定查询方面的实用性有限，同时提出进一步研究如何提高 LLMs 的质量，解决冲突并增加可信度的指导。

May, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

将语言模型调整至明确处理歧义

为了处理口语中存在的不完整或模糊的话语，本论文提出了一种方法来使大型语言模型在面对模糊输入时能够处理，并通过实验证明，经过微调的模型在处理模糊输入的同时，在明确的问题上仍然具有竞争力。

Apr, 2024