增量式自然语言处理:挑战、策略与评估
对于自然语言任务描述生成 PDDL 代码的能力,存在评估困难,因此引入了一个基准测试数据集 benchmarkName,包括 132,037 个文本到 PDDL 对,通过对几种语言模型的评估表明了该任务的复杂性。
Jul, 2024
通过使用 r/ChangeMyView 社区互动和惯例,本研究构建了一个数据集,以使用转变视角的高价值、社区认可的话语,扩大了转变视角的范围,并细化了数据集,研究了数据集创建和评估方面的挑战。
Jul, 2024
我们引入了 MIA-Bench,一个新的基准测试,旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型,我们发现性能存在显著差异,突出了指令准确性方面的改进空间。此外,我们创建了额外的训练数据,并探索监督微调来提高模型在严格遵循指令的能力,而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度,还能指导未来的多模态大型语言模型训练方法的发展。
Jul, 2024
在长文本任务中,我们提出了一种评估方法,该方法设计了一个合成文本集合来评估语言模型和检索模型的输出质量,并以摘要的形式呈现相关见解和引文。研究结果表明,当前的系统在这种任务上仍存在挑战,并希望未来的系统能够在该任务上取得超越人类的性能。
Jul, 2024
本文研究了多臂赌博问题中适应因果结构的问题,探讨了条件性有利结构和任意环境中学习性能的权衡关系,并通过将问题转化为线性赌博设置,首次获得了因果赌博的实例相关界。
Jul, 2024
应用差分隐私(DP)在自然语言处理中的研究必须区分其操作的句法级别,通常采用单词级或文档级的隐私化形式。最近,已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Privacy 方法。然而,这些方法往往无法产生语义连贯的文本输出,只能通过基本的单词扰动组合实现在句子或文档级别的应用。本研究通过在单词和句子级别之间操作,即使用 Collocations,来解决这些挑战。通过扰动 n-grams 而不是单个单词,我们设计了一种方法,其中组合的隐私化输出具有更高的语义连贯性和可变长度。我们通过构建一个基于频繁出现的单词组的嵌入模型来实现这一目标,在该模型中,unigram 词与 bi - 和 trigram collocations 共存。我们在效用和隐私测试中评估了我们的方法,明确提出了超越单词级的标记化策略。
Jun, 2024
我们研究了图缩减的性能,并通过开发一个综合的图缩减基准测试库 (GC-Bench) 来评估 12 种最新的图缩减算法在不同场景下的效果、可迁移性和复杂性。
Jun, 2024
通过提出 MMEvalPro 基准测试,我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进,其结果表明该基准测试更具挑战性且更可信,为进一步推动未来研究提供了重要潜力。
Jun, 2024
通过多任务训练方法,使用七个基本任务在多领域数据集上进行全面评估,我们介绍了基于 Apache 2.0 许可的 GRANITE-20B-FUNCTIONCALLING 模型,该模型在 Berkeley Function Calling Leaderboard 上是所有开源模型中表现最好的,且在七个不同的评估数据集上展现了更好的泛化能力。
Jun, 2024