glue benchmark | BriefGPT - AI 论文速递

关键词glue benchmark

搜索结果 - 68

参数高效微调的结构化无限秩矩阵
使用结构化无限秩矩阵 (SURM) 作为适配器和 LoRA 的替代方法的参数高效微调 (PEFT) 可以在减少参数数量的同时显著提高图像分类任务和 GLUE 基准上的质量。
PDF9 days ago
SPAFIT: 分层渐进调适微调预训练大型语言模型
本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAF
PDF2 months ago
AFLoRA：大型模型参数高效微调中自适应冻结低秩适应
提出一种新的参数高效微调方法 (AFLoRA)，通过冻结权重张量并添加平行的可训练低秩矩阵路径 (down-projection 和 up-projection 矩阵)，在微调过程中根据冻结得分逐渐冻结投影矩阵，以减少计算量并减轻过拟合，实
PDF3 months ago
基于 ReRAM 的 Transformer 语言模型的零空间成本容错技术
本文提出了一种零空间成本的容错机制，通过可微结构修剪、权重复制和投票以及嵌入最显著位（MSBs）到模型权重中，有效减少了硬件故障对模型预测的影响，并通过在 GLUE 基准的九个任务上使用 BERT 模型进行实验验证了该方法的有效性。
PDF5 months ago
大型预训练语言模型的高效微调方法的实证分析
为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验证明了几个关
PDF6 months ago
持续同调是否能净化基于 Transformer 的黑盒模型？BERT 压缩的案例研究
使用持久同调来衡量每个神经元的重要性的 Optimus BERT 压缩和解释能显著压缩 BERT 模型，并使其适合在资源受限设备上部署，从而提供对其神经元的解释能力。
PDF7 months ago
EMNLP如何确定最强大的预训练语言模型而无需暴力微调？实证调查
通过对现有可迁移性估计方法的全面调查和基于 GLUE 基准的详细实证研究，我们展示了现有方法的优点和缺点，并证明了 H-Score 在有效性和效率方面具有卓越性能。此外，我们还提出了在训练细节的考虑、文本生成的适用性以及与特定指标的一致性等
PDF7 months ago
语言模型的质量改进和压缩的共训练与共蒸馏
知识蒸馏是一种通过将知识传递给较小的模型来压缩计算成本昂贵的预训练语言模型，从而实现在资源受限或实时环境中使用的方法。为了解决性能和推理速度同时提高的问题，我们提出了一种名为 Co-Training and Co-Distillation
PDF8 months ago
EMNLPtorchdistill 与 Hugging Face 库的结合：基于 NLP 的可复现、无需编码的深度学习研究案例研究
升级版的 torchdistill 支持更多任务，通过 GLUE 基准测试验证了 BERT 模型的可重现性和知识蒸馏的有效性。
PDF8 months ago
BERT 模型的知识蒸馏改进：损失函数、映射方法和权重调整
本研究使用了 Transformer-based 模型（如 BERT、GPT 和 T5），并进行了知识蒸馏来进行模型压缩，特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权
PDF10 months ago
使您的预训练模型可逆：从参数到内存高效微调
本文提出了一种内存高效的微调方法（MEFT），通过在预训练语言模型中插入适配器以保留 PLM 的起点并使其可逆，同时将激活内存降低到 84％的完全微调水平，并在 GLUE 基准测试中实现与完全微调相同的分数。
PDFa year ago
ACLPreQuant: 面向预训练语言模型的任务无关量化方法
本文提出了一种新的 “先量化再微调” 的框架 PreQuant，将量化和微调分开来进行，使用参数有效的微调方法进行校正，取得了在 GLUE 数据集上的良好效果。
PDFa year ago
语言缩水了：缩减规模后的语言模型行为
本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务
PDFa year ago
ACLTADA: 英语任务不可知的方言适配器
文中提出了一种无需特定任务监督的任务不可知方言适应方法，通过使用不同方言的适配器并将其与标准美式英语方言的特定任务适配器结合，该方法可以提高方言的鲁棒性，并在 GLUE 基准测试的 4 种方言版本上取得了良好效果。
PDFa year ago
大型 Transformer 的循环适应
本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法，可以在保持高模型质量的情况下，大大降低训练的内存消耗和 GPU 能源使用，特别适用于微调大型 Transformers 模型。
PDFa year ago
民主化扩散语言模型
本文旨在提出一种去中心化的扩散语言模型（DDLM），该模型基于连续性扩散的范畴数据（CDCD）框架，使用 C4 数据集进行简化的培训过程，并提出一种新颖的早期退出策略，通过 GLUE 基准研究 DDLM 的知识转移能力。
PDFa year ago
ChatGPT 和 Fine-tuned BERT 的比较研究
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力，并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现，ChatGPT 在处理释义和相似性任务方面存在不足，但在推理任务方面优于所有 BERT 模
PDFa year ago
AAAISKDBERT: 基于随机知识蒸馏的 BERT 压缩
本文提出了随机知识蒸馏（SKD）算法用于获得紧凑的 BERT 风格语言模型，同时在多个教师模型的帮助下提高了知识蒸馏的效力，实验结果表明 SKDBERT 在保持 99.5% 语言理解准确度的同时，压缩了 BERT_BASE 模型 40% 的
PDF2 years ago
面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练
在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。
PDF2 years ago
调整语言模型作为训练数据生成器，用于增强少样本学习
本文从不同的角度研究 PLM 的 few-shot 学习，通过调参后作为生成器合成了大量的新训练样本，使用加权最大似然度量进行训练以鼓励生成器生成分类标签的样本，并使用正则化 fine-tuned 在小样本和合成样本上取得了比现有 few-
PDF2 years ago