确立可信度：重新思考任务和模型评估

EMNLPOct, 2023

确立可信度：重新思考任务和模型评估

Establishing Trustworthiness: Rethinking Tasks and Model Evaluation

Robert Litschko, Max Müller-Eberstein, Rob van der Goot, Leon Weber, Barbara Plank

TL;DR语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Abstract

language understanding is a multi-faceted cognitive capability, which the natural language processing (NLP) community has striven to model computationally for decades. Traditionally, facets of linguistic intellig

language understanding natural language processing task-agnostic approaches generative models model evaluation

发现论文，激发创造

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023

AI 系统中自然语言理解的评估框架的再思考：语言习得作为未来指标的核心

人工智能领域，大型语言模型在自然语言处理方面的前所未有的进步为重新考虑传统的机器智能度量提供了机会。本文提出了从既定的图灵测试转向以语言习得为核心的全面框架，受到了大型语言模型最新进展的启发。

Sep, 2023

NLP 模型对追踪思路的表现：叙事理解概述

本文对叙事理解任务进行了综合调查，详细研究了其关键特征、定义、分类、相关数据集、训练目标、评估指标和局限性。此外，我们探讨了将模块化大型语言模型的能力扩展到新的叙事理解任务的潜力，并通过将叙事理解视为提取作者想象线索的方式，引入了增强叙事理解的新方法。

Oct, 2023

多任务问题下的语言建模

本文研究语言模型作为多任务问题，结合了多任务学习，语言学和可解释性三个研究领域。通过研究来自语言学理论的假设，我们调查语言模型在训练过程中是否遵循多任务学习的学习原则。为了展示这个想法，我们分析了语言模型在学习消极极性项（NPIs）的语言概念时的泛化行为。我们的实验表明：在更一般的语言建模任务的目标中，多任务设置自然地出现。我们认为这种洞察力对于多任务学习，语言学和可解释性研究都是有价值的，并且可能导致所有三个领域的令人兴奋的新发现。

Jan, 2021

多任务和多语言模型用于词法分析

该论文旨在研究和探索使用任务和语言之间的相关性来构建需要较少手动注释数据的自然语言处理模型，通过研究 60 种语言的多种 NLP 任务，该论文表明了联合多任务和多语言建模的潜力，并暗示从这些模型中可以获得语言学洞见。

Sep, 2018

重新思考模型评估作为缩小社会技术差距的一种方式

在这篇论文中，作者认为生成模型和大型语言模型（LLM）的发展给模型评估带来了新的挑战与责任，因此呼吁研究人员应开发基于真实世界的社会需求的评估方法，并兼顾现实与成本的平衡，以缩小模型使用中的社会技术差距，同时为大型语言模型的评估提供开放性问题和机会。

Jun, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

一种支配所有事情的模型：用于词汇分析的多任务和多语言建模

本论文探讨了在自然语言处理方面学习多任务和多语言的交叉点，研究的主要目标是提高文本处理可靠性，尤其是在资源稀缺的语言中，通过利用语言重叠等方法，使得低资源语言能受益于高资源语言的进步。

Nov, 2017

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

关于一般语言理解

自然语言处理领域对于意义和测量的问题进行了实证研究，本文勾勒了一种理解模型，用于评估当前模型质量测量方法的适应性，并指出不同语言使用情境类型的特点、语言理解是多方面现象，以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。

Oct, 2023