使用似然拆分测试长尾泛化

Oct, 2022

Benchmarking Long-tail Generalization with Likelihood Splits

Ameya Godbole, Robin Jia

TL;DR为了可靠地处理自然语言，NLP 系统必须推广到罕见话语的长尾中。我们提出了一种方法，通过重新拆分现有数据集来创建具有挑战性的基准，要求推广到分布的尾部。在这个简单的方法中，我们创建了一个 “似然分布分割”，把通过一个预先训练的语言模型（LM）分配较低概率的例子放在测试集中，而更有可能的例子放在训练集中。这种方法可以量身定制，为广泛的任务构建有意义的训练 - 测试分割。同时，似然分配比随机分割更具挑战性。此外，似然分配比对抗性过滤创建了更公平的基准；当使用 LM 创建分配时，我们的分割不会对 LM 产生不利的惩罚。

Abstract

In order to reliably process natural language, nlp systems must generalize to the long tail of rare utterances. We propose a method to create challenging benchmarks that require generalizing to the tail of the di

nlp systems long tail linguistic parse likelihood splits fairness

发现论文，激发创造

我们需要谈论随机分割

研究指出，NLP 领域的实验应当使用多重的、独立的测试集进行评估，以获得更真实的性能评估；当不可能使用多个测试集时，使用多个有偏差的划分方式可得到更接近真实的性能评估。

May, 2020

寻找长尾：通过逻辑规则引导搜索系统生成长尾知识

大型语言模型，长尾分布，逻辑诱导知识搜索框架，数据集，蕴涵分类。

Nov, 2023

大规模语言模型的拆分和再表述

使用大型语言模型，通过训练样本和模型参数的相对较小数量，显著改进了 Split and Rephrase 任务的性能，并证明了大语言模型在该任务中的潜力。

Dec, 2023

伪对数似然在自然语言评分中的应用

本文探讨了使用零射击方式相对于微调方法的优势，并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且，作者认为此种方法的健壮性应从表征组合性的角度进行解释。

Jan, 2022

基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

通过对现有数据集的新的训练 - 测试分割，我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体，并使用四个预训练模型应用于两个数据集，揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明，数据分割的表面级属性与性能下降之间没有明确的相关性，这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割，并通过 GenBench 基准发布了两种分割方案。

Nov, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

更好的评估和更强的基线

通过增加复制机制的神经网络模型，本研究针对 NLP 中一个有挑战性的问题解决了一个复杂句子分裂及重述的任务，并成功地提高了 8.68 BLEU 的得分。

May, 2018

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023