nlp benchmarks | BriefGPT - AI 论文速递

关键词nlp benchmarks

搜索结果 - 26

基于预训练大型语言模型的乌尔都自然语言处理任务潜力评估
利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析，结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外，研究还发现，基于较少参数但更多语言特定数据的模型比基于更大计算
PDF9 days ago
基于 BERT 的句子分类的神经架构搜索
使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况
PDF2 months ago
VariErr NLI：将注释错误与人类标签变异分离
人类标签变异与注释错误是 NLP 基准测试中普遍存在的问题，现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集 VariErr，着重研究英语 NLI 任务中的错误与变异。通过评估各种自动错误检测方法和 GPT 模型在发现错
PDF3 months ago
维果茨基距离：用于基准任务相似性度量
评估在现代自然语言处理中起着重要作用。该论文介绍了一种理论工具和一种实际算法，用于计算基准任务之间的相似性，称为 “Vygotsky 距离”。该相似性度量的核心思想是基于给定任务上 “学生” 的相对表现，而不是任务本身的特性。在维格斯基距离
PDF3 months ago
合作还是企业控制？量化 NLP 对工业产物和贡献的依赖程度
自然语言处理中智能模型的进步与行业模型的重要性及其对学术论文的影响进行调查，发现与行业的合作在 NLP 出版物中有显著依赖性，并探讨了两种可能的解释。
PDF6 months ago
LIMIT: 指令调整跨评估范式中的越少越好
通过对小规模多样化的 fine-tune 样本进行研究，本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能，并展示了将教科书形式和开放式问答 fine-tuning 数
PDF6 months ago
PsyBench: 一个平衡且深入的心理学中文评估基准
LLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，
PDF7 months ago
探究语言模型中的「秘密语言」存在
我们使用一种名为 SecretFinding 的基于梯度的方法，在五个不同的模型和五个任务上进行了实验，发现语言模型存在秘密语言现象，并且该现象具有普遍性，可以在其他模型中转移，最后讨论了秘密语言的原因、消除方法以及其在记忆方面的潜在联系和
PDF10 months ago
ACL为预训练语言模型提供常识知识转移
本研究提出一种通用预训练语言模型的常识知识转移框架，通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进，使其更好地传递到需要常识推理的下游任务中并取得显著改善。
PDFa year ago
ACL模型生成的预训练信号改进了文本 - 文本转换器的零 - shot 泛化能力
本文探讨了模型生成信号在改善零样本泛化文本到文本转换器（如 T5）中的效果。我们研究了使用辅助模型预训练 T5 的各种设计，以构造更具挑战性的标记替换作为主要模型的去噪前缀。基于这些研究，我们开发了一个新模型 METRO-T0，并改进了
PDFa year ago
C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型
通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。
PDFa year ago
ACL蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型
本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetunin
PDFa year ago
LaMini-LM：用大规模指令生成多样化的蒸馏模型集群
研究通过将指令调整的大型语言模型知识压缩到较小的模型来降低资源消耗，经证实可以在 15 个不同的 NLP 测试基准上与竞争对手基线相媲美，而体积约小 10 倍。
PDFa year ago
人类和语言模型中的任务歧义
研究语言模型在模糊任务中的表现，提出新的 AmbiBench 测试集进行评估，并发现 175B 参数的模型和使用人类反馈数据进行训练可以在模糊分类任务上超过或接近人类的准确度，但仅有其中一个是不足的。同时，通过在少量模糊上下文示例上微调，可
PDFa year ago
EMNLPSEAL : 交互式系统误差分析和标记工具
这篇论文介绍了一种交互式的 Systematic Error Analysis and Labeling (SEAL) 工具，使用两步法逐步确定高误差片段数据，同时使用语言模型和文本到图像模型来为性能低下的数据集提供人类可理解的语义，从而解
PDF2 years ago
EMNLP一个问题分解单元就足够了吗？
研究者们探讨了一种新的方法通过人在内的 NLP 研究，在不建立新模型的情况下，通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能，证明了这种方法的可行性，可以作为建立大型语言模型的替代方案。
PDF2 years ago
使用计算语言模型预测人类心理测量属性
本研究得出结论，Transformer-based language models 可以在模拟语言理解任务中预测人类心理测量数据，这为心理测量学家节省了多轮实验测试的必要性。
PDF2 years ago
ACL长上下文 NLP 模型中效率与准确性的权衡特征
本文对自然语言处理中的长文本序列建模技术进行了深入的研究，通过使用两种常见的长序列模型 ——LED 和 Big Bird，实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡，其中 LED 模型在
PDF2 years ago
ACLMukayese：土耳其自然语言处理反击
本文主要介绍了一个名为 Mukayese 的 NLP 基准集，它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试，并且为每个基准测试提供多个数据集和基准值。
PDF2 years ago
EMNLPSCROLLS: 标准化的长文本序列比较
介绍了 SCROLLS 套件，其中包括要求理解和处理长文本的任务，如长篇摘要、问题回答和自然语言推理。SCROLLS 涵盖多个领域，包括文学、科学、商业和娱乐，并提供了基线结果以促进模型架构和预训练方法方面的研究。
PDF2 years ago