使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

ACLMay, 2021

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality

Adithya V Ganesan, Matthew Matero, Aravind Reddy Ravula, Huy Vu, H. Andrew Schwartz

TL;DR本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

Abstract

In human-level nlp tasks, such as predicting mental health, personality, or demographics, the number of observations is often smaller than the standard 768+ hidden state sizes of each layer within modern transformer-based language models, limiting the ability to effectively leverage tr

nlp transformer-based language models dimension reduction roberta embedding dimensions

发现论文，激发创造

评估预训练句子嵌入的无监督降维方法

使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Mar, 2024

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

多语种 Transformer 中的降维技术探索

这篇论文旨在探讨多维降维技术对多语言 Siamese Transformer 模型在语义文本相似性任务上的性能影响，针对 Semantic Textual Similarity Benchmark 进行了测试，并通过可视化结果得出了在高维度嵌入计算中使用降维技术的潜力及其对语义意识任务性能的影响。

Apr, 2022

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

内在维度解释语言模型微调的有效性

本文通过分析基于内在维度的微调现象，提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象，然后通过实验证明了常规预训练模型具有极低的内在维度。最后，作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。

Dec, 2020

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

使用多语言预训练变压器量化文本情感的价值和唤起程度

本研究利用预训练转换器对多语言和多领域的输入文本进行情感分析，使用基于趋势 - 唤醒维度的情感分析方法，比传统方法更细致地区分不同的情感，并发现模型大小对预测质量有显著影响，可自信地预测不同语言的趋势性和唤醒性。

Feb, 2023

探索维度情感语音分析中显著表示和标签变异性

通过降维预训练表示空间，这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能，并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外，论文比较了情感模型在声学恶化下的鲁棒性，并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。

Dec, 2023

加载所需：多语言 BERT 的较小版本

本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Oct, 2020