通过问答实现低资源印度尼西亚语标题党取消

Oct, 2023

通过问答实现低资源印度尼西亚语标题党取消

Low-Resource Clickbait Spoiling for Indonesian via Question Answering

Ni Putu Intan Maharani, Ayu Purwarianti, Alham Fikri Aji

TL;DR鉴于点击率欺骗事件的增多，我们构建了一个手动标记的印度尼西亚点击率欺骗语料库，并使用跨语言零 - shot 问题回答模型来解决印度尼西亚等低资源语言的点击率欺骗问题，实验结果表明，XLM-RoBERTa（large）模型在短语和段落的剧透方面优于其他模型，而 mDeBERTa（base）模型在多部分剧透方面优于其他模型。

Abstract

clickbait spoiling aims to generate a short text to satisfy the curiosity induced by a clickbait post. As it is a newly introduced task, the dataset is only available in English so far. Our contributions include the construction of manually labeled →

clickbait spoiling cross-lingual zero-shot question answering manually labeled corpus indonesian multilingual language models

发现论文，激发创造

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

BLP-2023 任务 2 的低资源方案：利用 BanglaBert 进行孟加拉语低资源情感分析

该研究以 BanglaBert 为基础，利用多种策略进行情感分析，并建立了一个包含三种最佳 BanglaBert 变体的集成模型，在 BLP-2023 中的排名为第三。

Nov, 2023

LLM 对零样本和少样本提示的比较研究：孟加拉情感分析的微调模型

本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集，并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习，与精细调优模型进行了比较分析。研究结果表明，在零指导和少量指导的场景下，单语言变换器模型始终优于其他模型。为了促进进一步的研究探索，我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。

Aug, 2023

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

领域无关问答数据扩充及采样技术探究

研究提出了一个不依赖于特定领域的问答模型，并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效，即使它通常用于包括无法回答的问题（如 SQuAD 2.0）的数据集。当与域内采样结合应用时，基于 XLNet（Yang 等人，2019）的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。

Dec, 2019

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

在资源匮乏的语言中建立文本分类基线

本文旨在解决低资源语言菲律宾文的文本分类问题，并提供了两个以往未发布的数据集作为基准，使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试，以评估模型在不同训练集数量下的表现降低速度，并释放所有模型和数据集供研究社区使用。

May, 2020

UCAS-IIE-NLP 在 SemEval-2023 任务 12 中的表现：增强低资源情感分析的多语言 BERT 泛化能力

本文描述了我们为 SemEval-2023 任务 12 而设计的系统：对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题，我们提出了一个通用的多语言系统 SACL-XLMR，用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色，并在零样本分类子任务中获得了官方排名的第一名。

Jun, 2023

ZusammenQA：专用模型数据增强的跨语言开放检索问答系统

该论文提出了一种用于 COQA 多语言问题解答的系统，该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究，并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。

May, 2022