基于 BERT 的句子分类的神经架构搜索

Mar, 2024

基于 BERT 的句子分类的神经架构搜索

Neural Architecture Search for Sentence Classification with BERT

Philip Kenneweg, Sarah Schröder, Barbara Hammer

TL;DR使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况下能够超过当前单层分类器的体系结构。我们在 GLUE 数据集的各种自然语言处理基准上验证了我们的分类体系结构。

Abstract

pre training of language models on large text corpora is common practice in Natural Language Processing. Following, fine tuning of these m

pre training language models fine tuning automl search nlp benchmarks

发现论文，激发创造

通过神经架构搜索对预训练语言模型进行结构修剪

基于预训练语言模型和神经架构搜索的结构修剪方法，通过多目标策略实现对子网络的灵活压缩，提高模型效率。

May, 2024

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

语言模型与自动化文章评分

本文通过比较两种强大的语言模型 BERT 和 XLNet 以及传统模型（词袋和 LSTM），阐述了其神经网络架构，并使用线性代数符号和图表解释了 transformer 机制构架的优势，最终在 Kaggle AES dataset 中实现了超出人类水平的准确度。

Sep, 2019

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

BERTSel：基于预训练模型的答案选择

使用预训练模型 BERT 进行微调以提高答案选择任务的性能并在五个数据集上获得 STOA 结果

May, 2019

SemEval-2022 任务 11 中的多语言人士：基于 Transformer 的复杂 NER 架构

本文研究了英文语言的复杂 NER 任务，使用预训练语言模型如 BERT 取得竞争性成绩，并 qualitatively 分析了多种架构在此任务上的表现，最佳模型相比 baseline F1-score 提升了超过 9%。

Apr, 2022

ArchBERT: 神经架构和自然语言的双模理解

提出了一种用于联合学习和理解神经架构和自然语言的双模态模型 ArchBERT，引入了被称为 MAM 的预训练策略，提供了两个新的双模态数据集进行方法的训练和验证，通过一系列下游任务的实验验证了 ArchBERT 的性能。

Oct, 2023

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018