本论文提出了一个基于语言学家注释的语言歧义数据集,并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明,这是一个极具挑战性的任务,现有的模型正确率仅为 32%,本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时,本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。
Apr, 2023
研究语言模型在模糊任务中的表现,提出新的 AmbiBench 测试集进行评估,并发现 175B 参数的模型和使用人类反馈数据进行训练可以在模糊分类任务上超过或接近人类的准确度,但仅有其中一个是不足的。同时,通过在少量模糊上下文示例上微调,可以显著提高没有大规模人类反馈训练的语言模型的准确性,为教授模型有效地处理模糊性问题提供了有希望的方向。
Dec, 2022
我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义,我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果,并对模型的不确定性进行了估计,我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法,使系统能够在仅允许在 10%的示例上进行澄清时将性能提升两倍。
Nov, 2023
GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程,而不会损失诊断准确性,因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子,将它们推向在医学中安全有效使用的一步。
Aug, 2023
本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查,介绍与比较了相关研究工作,并提供系统化的资源以帮助初学者,同时讨论了产生此类推理能力的潜在原因和未来的研究方向。
通过利用大型语言模型,我们研究了在机器翻译中解决语义歧义的能力,并提出了两种改进方法,通过上下文学习和在精心策划的歧义数据集上的微调,我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统,为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。
Sep, 2023
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
通过引入 CLAMBER,本研究构建了一个评估大型语言模型(LLMs)的基准,发现当前 LLMs 在识别和澄清用户不确定查询方面的实用性有限,同时提出进一步研究如何提高 LLMs 的质量,解决冲突并增加可信度的指导。
May, 2024
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
为了处理口语中存在的不完整或模糊的话语,本论文提出了一种方法来使大型语言模型在面对模糊输入时能够处理,并通过实验证明,经过微调的模型在处理模糊输入的同时,在明确的问题上仍然具有竞争力。
Apr, 2024