- VTrans:基于变分信息瓶颈剪枝的 Transformer 压缩加速
我们提出了 VTrans,一种迭代剪枝框架,通过变分信息瓶颈(VIB)原则引导,压缩所有结构组件,包括嵌入层、注意力头和层,以满足模型大小或计算约束,相比之前的方法实现了高达 70% 的压缩,并提出了更快的变体。在 BERT、ROBERTa - 基于 Transformer 的情感检测:一项比较研究
本研究探讨了基于 Transformer 模型在文本数据情感分类上的应用。我们训练和评估了几种预训练 Transformer 模型,并对 Transformer 层的微调、可训练性以及文本数据预处理等因素进行了分析。我们的分析发现,常用的技 - SLoRA:联邦参数高效微调语言模型
本研究通过探索在语言任务中不同联邦学习设置中应用参数高效微调(PEFT)方法的机会和挑战,提出了一种名为 SLoRA 的方法,通过一种新颖的数据驱动初始化技术来克服在高异构数据环境中 LoRA 的关键限制,实现与全面微调可比的性能,并以大约 - 孟加拉语虚假评论:一个基准数据集和检测系统
通过使用多个深度学习和预训练 Transformer 语言模型开发出一个可靠的检测系统,该论文介绍了孟加拉语虚假评论检测(BFRD)数据集,该数据集是用于识别孟加拉语虚假评论的第一个公开可用数据集,通过翻译英文单词和罗马化孟加拉语进行背音转 - 用于分类捷克新闻文本的数据集和强大基准线
通过 CZEch~NEws~Classification~dataset 对 Czech 自然语言处理进行评估,发现语言特定的预训练编码器分析优于可选的大规模生成语言模型,并定义了四个分类任务:新闻来源、新闻类别、作者性别推断和星期几。
- SIGIRSPRINT:零射懿蜷神经稀疏检索的统一工具包
SPRINT 是一个基于 Pyserini 和 Lucene 的统一 Python 工具包,支持评估神经稀疏检索。通过在 BEIR 上建立强大且可复现的零样本稀疏检索基线,我们的结果表明 SPLADEv2 在所有神经稀疏检索器中取得了最佳的 - Zero-TPrune:基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪
本文提出了首个零 - shot 的方法 Zero-TPrune,通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性,在保持高精度的前提下,大幅减少了模型的计算复杂度和推理时间。
- 预训练数据分布对病理报告分类效果的研究
测试 4 个病理分类任务,涉及 2907 份前列腺癌病理报告,评估 5 个变压器预训练模型以及他们的不同预训练语料库,发现混合域和领域特定的模型在微调过程中具有更快的特征消歧能力,同时,混合域模型更具抗过度拟合性。同时,使用通用自然语言和特 - ACL教师干预:提高超低精度 Transformer 量化感知训练的收敛性
本论文提出了一种名为 Teacher Intervention(TI)的主动知识蒸馏方法,用于快速收敛超低精度预训练 Transformer 的 QAT,并采用逐步干预机制来稳定恢复 Transformer 层的子节,提高模型准确性。
- 使用 Transformer 进行句子简化 -- 以五岁孩子的语言为解释
本文使用预训练转换器模型探讨了简化句子的方法,并在 Mechanical Turk 数据集上结合 GPT-2 和 BERT 模型取得了 46.80 的最佳 SARI 得分,明显优于之前的最新研究成果。
- 多语言转换器用于产品匹配 -- 波兰实验和新基准测评
该论文展示了使用预训练的、多语言 Transformer 模型,并通过微调来解决英语和波兰语文本特征下的产品匹配问题。该论文在英语中测试了多语言 mBERT 和 XLM-RoBERTa 模型,发现在 Web Data Commons - 训 - ArabGlossBERT: 基于上下文 - 词汇解释对的 BERT 微调用于 WSD
本文介绍了使用预训练的 transformer 模型(例如 BERT)对阿拉伯语词义消歧(WSD)进行微调的工作。我们将 WSD 任务视为句子对二进制分类任务,并针对三个预先训练的阿拉伯 BERT 模型进行了微调,通过构建标记的阿拉伯文本 - 使用 seBERT 预测问题类型
本文介绍了一种基于 BERT 架构的新型模型 seBERT,通过对该模型进行 微调,针对 NLBSE 挑战任务的问题类型预测,我们的模型在召回率和精确度上 均优于基准 fastText 模型,最终取得了 85.7% 的 F1 分数,比基准模 - 基于 Transformer 的极端多标签文本分类中局部和全局特征的利用
本研究提出了一种方法来结合 transformer 模型所产生的局部和全局特征,从而提高分类器的预测能力,在大规模分类任务的基准数据集上表现优异。
- 预训练的 Transformer 模型能否用于检测复杂敏感句子?—— 以孟山都公司为例
探讨使用预训练的 transformer 模型来检测包含大量敏感信息或已知敏感内容的句子,通过对 Monsanto 测试数据集的实验发现,使用 BERT 模型可以更好地检测敏感信息,从而预防应急信息泄漏。
- 可解释推荐的个性化提示学习
该研究提出了一种利用预训练模型和新型 prompt learning 方法实现基于用户可解释性推荐的方法,并与传统方法相比,有着更好的表现。
- ACL基于序列标注的自顶向下篇章分析
本研究介绍了一种自上而下的话语分析方法,该方法的目标是将文档迭代地分段成个体话语单元,这种方法不仅消除了解码器,而且减少了划分点的搜索空间,同时使用了 LSTM 模型,在全指标下达到了最新的 RST 分析结果。
- 使用实体感知的上下文嵌入进行事件驱动新闻流聚类
提出一种基于非参数流式 K 均值算法的在线新闻流聚类方法,使用了稀疏和密集文档表示的组合,采用神经分类器做聚类决策,并将文档 - 聚类相似度聚合在这些多重表示中。使用三元组损失将加权文档 - 聚类相似度模型转化为线性分类目标,同时使用 Tr - 单次元元剪枝:减少注意力头部无关部分
本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可 - ACL语法树能帮助预训练 Transformer 提取信息吗?
本文研究如何将依存树信息合并到预训练的 Transformer 模型中以提高信息提取任务的性能,在语义角色标注和关系抽取任务上,采用两种相似但不同的模型设计策略,通过实证研究发现这些语法增强的 Transformer 模型的性能提高取决于依