在低端硬件上使用语言模型

May, 2023

Using Language Models on Low-end Hardware

Fabian Ziegner, Janos Borst, Andreas Niekler, Martin Potthast

TL;DR本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性，将语言模型与 CNN 构架相结合，并在 8 个数据集上进行了综合基准测试，覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡，结论是，在某些情况下，不微调语言模型能够在更快的训练时间内具有竞争力的效果，并且只需要微调的内存的四分之一。

Abstract

This paper evaluates the viability of using fixed language models for training text classification networks on low-end hardware. We combine language models with a →

language models cnn architecture text classification trade-offs memory usage

发现论文，激发创造

利用大量弱监督数据进行多语言情感分类

本文提出了一种新的多语言情感分类方法，使用了大量的弱监督数据训练多层卷积网络，通过在多种语言数据集上进行充分的评估，证明该方法的优异性能，达到了同类研究的最高水平。

Mar, 2017

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

基于卷积神经网络的图像字幕语言的实证研究

本研究介绍了一种基于卷积神经网络的语言模型，适用于统计语言建模任务，在图像字幕生成中表现出竞争性能。相比以前的模型，它使用所有先前的单词进行训练，可以模拟历史单词的长期依赖性，这对图像字幕生成至关重要。该方法在 MS COCO 和 Flickr30K 两个数据集上进行了验证，实验结果显示，相较于基于循环神经网络的语言模型表现更佳，且具有竞争性的最先进技术。

Dec, 2016

文本分类的模型混合

本文旨在通过将深度神经网络 (LSTM) 模型的知识提取到基于卷积神经网络 (CNN) 的模型中，来降低自然语言识别任务（如文本分类）中的推理时间，以实现模型的简化、压缩和加速。

Aug, 2022

文本分类的语言模型：局部学习是否足够？

在这篇论文中，我们通过对 16 个文本分类数据集进行大规模评估研究，比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明，更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法，在文本分类方面有改进的空间。

Mar, 2024

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

小型语言模型也很不错：一项零样本分类的实证研究

该研究评估了使用不同参数和结构的小型语言模型在零射击文本分类中的性能，并发现小型模型在分类文本方面表现出色，与或超过了更大的模型，这一发现强调了资源高效的小型模型可能为特定的数据分类挑战提供可行的解决方案。

Apr, 2024

适应文本分类任务中性能与效率的权衡

本文研究了不同的训练方法，使用预训练语言模型来进行文本分类。研究发现，在训练大型语言模型时，虽然标准微调和提示可以很好地运作，但是还有更有效的替代方法可以降低计算或数据成本。有趣的是，发现提示结合知识蒸馏可以同时降低计算和数据成本。

Oct, 2022

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022