在资源匮乏的语言中建立文本分类基线

May, 2020

在资源匮乏的语言中建立文本分类基线

Establishing Baselines for Text Classification in Low-Resource Languages

Jan Christian Blaise Cruz, Charibeth Cheng

TL;DR本文旨在解决低资源语言菲律宾文的文本分类问题，并提供了两个以往未发布的数据集作为基准，使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试，以评估模型在不同训练集数量下的表现降低速度，并释放所有模型和数据集供研究社区使用。

Abstract

While transformer-based finetuning techniques have proven effective in tasks that involve low-resource, low-data environments, a lack of properly established baselines and benchmark datasets make it hard to compa

transformer-based finetuning low-resource environments benchmark datasets pretrained models degradation test

发现论文，激发创造

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

SemEval-2023 任务 12：通过多语言预训练语言模型微调实现低资源语言文本分类

本研究利用多种多语种 XLM-R 模型和多样数据集，针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究，最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩，但在某些语言表现不佳，表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。

May, 2023

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

为低资源语言预训练数据质量和数量：马耳他语新语料库和 BERT 模型

本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种（如马耳他语）的效果，并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明，使用混合预训练域往往优于仅使用维基百科文本，并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外，本文还预训练并比较了两个模型：从头开始训练的单语 BERT 模型（BERTu）和进一步预训练的多语言 BERT 模型（mBERTu），这两个模型都在各种下游任务上取得了最先进的性能。

May, 2022

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

朝着现实低资源关系抽取的方向：具有实证基线研究的基准测试

本文通过三种不同的方案对低资源情况下关系抽取系统进行了全面研究，并创建了包含 8 个 RE 数据集的基准，示范了不同的方法与结合的影响，结果表明虽然基于提示的调整有助于低资源 RE，但在从跨句子上下文中提取多个关系三元组时仍有很大改善潜力，数据增强与自我训练可以较好地充实现有基准，并可带来很多性能提升，然而自我训练并不能始终实现低资源关系抽取的进步。

Oct, 2022

BLP-2023 任务 2 的低资源方案：利用 BanglaBert 进行孟加拉语低资源情感分析

该研究以 BanglaBert 为基础，利用多种策略进行情感分析，并建立了一个包含三种最佳 BanglaBert 变体的集成模型，在 BLP-2023 中的排名为第三。

Nov, 2023

简单基线算法在误信息检测中的出色表现

本研究通过对一系列现代基于转换器的语言模型进行基础调整的表现研究，展示了它们具有竞争力并可以显著超越最新提出的先进方法以及一个简单的工具来检测在未来数据集中需要解决的问题，如潜在数据泄漏和混淆变量。

Apr, 2021

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022