自然语言理解的定义和测试中的自由程度

ACLMay, 2023

自然语言理解的定义和测试中的自由程度

On Degrees of Freedom in Defining and Testing Natural Language Understanding

Saku Sugawara, Shun Tsugita

TL;DR本篇论文提出对自然语言理解测试的重新思考，通过识别研究人员的自由度，提出有效性论证框架作为设计可靠测试套件的指南以促进科学交流。

Abstract

natural language understanding (NLU) studies often exaggerate or underestimate the capabilities of systems, thereby limiting the reproducibility of their findings. These erroneous evaluations can be attributed to

natural language understanding reproducibility turing test validation criteria scientific communication

发现论文，激发创造

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022

如何改进自然语言理解基准测试？

该论文提出了评估自然语言理解任务的四个标准，并指出目前大多数现有标准都无法满足这些标准，而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统，需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。

Apr, 2021

理解理解：受大型语言模型驱动的实用框架

通过随机采样和应用概率置信边界，我们提出了一个测试任何机器或人类是否理解一门主题的框架，其中包括确定问题范围、要求一般能力和避免荒谬答案，但允许某些问题的错误和 “我不知道” 答案。根据我们的框架，目前的大型语言模型不能说理解非平凡领域，但这个框架提供了一个测试理解的实用方法，也是构建理解型人工智能代理的工具。

Jun, 2024

自然语言理解系统的理解和评估

本文通过对最新的自然语言理解系统的语言能力进行批判性分析，认为这些系统具备人类语言学习和处理的重要方面，但同时缺乏关键的解释和推论技能，除非它们被结构化知识和利用语言使用能力所整合，否则难以实现这些技能。

Mar, 2023

重塑自然语言推理中的中立性：没有强烈的一方或另一方情感

本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷，尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态，且存在解释不一致的情况，而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法，并确定了最近的自然语言推理（NLI）数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI，我们希望引发 NLP 社区的进一步讨论和行动。

Jun, 2023

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023

LoNLI: 一个测试自然语言推理能力的可扩展框架

本研究提出了一个可扩展的框架，通过行为测试创建了一个半合成的大型测试平台和相关框架，以分析和测试 17 种推理能力维度，包括语用推理，从而将自然语言推断（NLI）的不同逻辑推理能力以集合和型分类的方式应用于 NLU。通过分析最新的 NLI 系统，我们发现我们的基准确实非常难以训练，一些能力更难以训练。

Dec, 2021

AI 系统中自然语言理解的评估框架的再思考：语言习得作为未来指标的核心

人工智能领域，大型语言模型在自然语言处理方面的前所未有的进步为重新考虑传统的机器智能度量提供了机会。本文提出了从既定的图灵测试转向以语言习得为核心的全面框架，受到了大型语言模型最新进展的启发。

Sep, 2023

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

关于一般语言理解

自然语言处理领域对于意义和测量的问题进行了实证研究，本文勾勒了一种理解模型，用于评估当前模型质量测量方法的适应性，并指出不同语言使用情境类型的特点、语言理解是多方面现象，以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。

Oct, 2023