自然语言理解的定义和测试中的自由程度
该论文提出了评估自然语言理解任务的四个标准,并指出目前大多数现有标准都无法满足这些标准,而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统,需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。
Apr, 2021
通过随机采样和应用概率置信边界,我们提出了一个测试任何机器或人类是否理解一门主题的框架,其中包括确定问题范围、要求一般能力和避免荒谬答案,但允许某些问题的错误和 “我不知道” 答案。根据我们的框架,目前的大型语言模型不能说理解非平凡领域,但这个框架提供了一个测试理解的实用方法,也是构建理解型人工智能代理的工具。
Jun, 2024
本文通过对最新的自然语言理解系统的语言能力进行批判性分析,认为这些系统具备人类语言学习和处理的重要方面,但同时缺乏关键的解释和推论技能,除非它们被结构化知识和利用语言使用能力所整合,否则难以实现这些技能。
Mar, 2023
本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷,尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态,且存在解释不一致的情况,而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法,并确定了最近的自然语言推理(NLI)数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI,我们希望引发 NLP 社区的进一步讨论和行动。
Jun, 2023
语言理解是一个多方面的认知能力,自然语言处理(NLP)领域几十年来一直致力于计算化建模。最近大型语言模型(LLMs)的出现,使得以生成模型为动力的通用性、任务无关的方法成为主流,这导致了语言任务传统上的划分不再适用,带来了对评估和分析的挑战,同时也加大了对可靠系统的需求。因此,我们主张重新思考 NLP 中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,以了解模型功能能力的起源,并提出了多方面评估协议的建议。
Oct, 2023
本研究提出了一个可扩展的框架,通过行为测试创建了一个半合成的大型测试平台和相关框架,以分析和测试 17 种推理能力维度,包括语用推理,从而将自然语言推断(NLI)的不同逻辑推理能力以集合和型分类的方式应用于 NLU。通过分析最新的 NLI 系统,我们发现我们的基准确实非常难以训练,一些能力更难以训练。
Dec, 2021
人工智能领域,大型语言模型在自然语言处理方面的前所未有的进步为重新考虑传统的机器智能度量提供了机会。本文提出了从既定的图灵测试转向以语言习得为核心的全面框架,受到了大型语言模型最新进展的启发。
Sep, 2023
自然语言处理领域对于意义和测量的问题进行了实证研究,本文勾勒了一种理解模型,用于评估当前模型质量测量方法的适应性,并指出不同语言使用情境类型的特点、语言理解是多方面现象,以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。
Oct, 2023