增量式自然语言处理：挑战、策略与评估

COLINGMay, 2018

增量式自然语言处理：挑战、策略与评估

Incremental Natural Language Processing: Challenges, Strategies, and Evaluation

Arne Köhn

TL;DR该论文调查了自然语言处理中增量性的实现和评估方法，着重探讨了评估方案中需要考虑的权衡，旨在为人机交互提供更优秀的评估方法。

Abstract

incrementality is ubiquitous in human-human interaction and beneficial for human-computer interaction. It has been a topic of research in different parts of the →

incrementality nlp evaluation human-computer interaction trade-offs

发现论文，激发创造

量化如何影响多语言 LLMs？

量化、多语言 LLMs 的性能、语言、评估

Jul, 2024

星象馆：将文字转换为结构化规划语言的严格基准

对于自然语言任务描述生成 PDDL 代码的能力，存在评估困难，因此引入了一个基准测试数据集 benchmarkName，包括 132,037 个文本到 PDDL 对，通过对几种语言模型的评估表明了该任务的复杂性。

Jul, 2024

改变我的框架：在 r/ChangeMyView 中的现实再构

通过使用 r/ChangeMyView 社区互动和惯例，本研究构建了一个数据集，以使用转变视角的高价值、社区认可的话语，扩大了转变视角的范围，并细化了数据集，研究了数据集创建和评估方面的挑战。

Jul, 2024

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

一个干草堆的总结：对于长文本 LLMs 和 RAG 系统的挑战

在长文本任务中，我们提出了一种评估方法，该方法设计了一个合成文本集合来评估语言模型和检索模型的输出质量，并以摘要的形式呈现相关见解和引文。研究结果表明，当前的系统在这种任务上仍存在挑战，并希望未来的系统能够在该任务上取得超越人类的性能。

Jul, 2024

因果型赌博机：适应性的帕累托最优前沿，相对于线性赌博机的简化以及对未知边际分布的限制

本文研究了多臂赌博问题中适应因果结构的问题，探讨了条件性有利结构和任意环境中学习性能的权衡关系，并通过将问题转化为线性赌博设置，首次获得了因果赌博的实例相关界。

Jul, 2024

基于搭配的方法应对词级度量差分隐私挑战

应用差分隐私（DP）在自然语言处理中的研究必须区分其操作的句法级别，通常采用单词级或文档级的隐私化形式。最近，已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Privacy 方法。然而，这些方法往往无法产生语义连贯的文本输出，只能通过基本的单词扰动组合实现在句子或文档级别的应用。本研究通过在单词和句子级别之间操作，即使用 Collocations，来解决这些挑战。通过扰动 n-grams 而不是单个单词，我们设计了一种方法，其中组合的隐私化输出具有更高的语义连贯性和可变长度。我们通过构建一个基于频繁出现的单词组的嵌入模型来实现这一目标，在该模型中，unigram 词与 bi - 和 trigram collocations 共存。我们在效用和隐私测试中评估了我们的方法，明确提出了超越单词级的标记化策略。

Jun, 2024

GC-Bench: 图形凝聚的开放和统一基准

我们研究了图缩减的性能，并通过开发一个综合的图缩减基准测试库 (GC-Bench) 来评估 12 种最新的图缩减算法在不同场景下的效果、可迁移性和复杂性。

Jun, 2024

MMEvalPro：多模态基准测试的可靠和高效评估

通过提出 MMEvalPro 基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。

Jun, 2024

花岗岩函数调用模型：通过对颗粒任务的多任务学习引入函数调用能力

通过多任务训练方法，使用七个基本任务在多领域数据集上进行全面评估，我们介绍了基于 Apache 2.0 许可的 GRANITE-20B-FUNCTIONCALLING 模型，该模型在 Berkeley Function Calling Leaderboard 上是所有开源模型中表现最好的，且在七个不同的评估数据集上展现了更好的泛化能力。

Jun, 2024