BanglaNLP 在 BLP-2023 任务 1 中：对孟加拉语中激发暴力的文本检测进行不同的 Transformer 模型评估

Oct, 2023

BanglaNLP 在 BLP-2023 任务 1 中：对孟加拉语中激发暴力的文本检测进行不同的 Transformer 模型评估

BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models for Violence Inciting Text Detection in Bengali

Saumajit Saha, Albert Nanda

TL;DR本研究通过开发系统解决孟加拉暴力煽动文本检测的共享任务，探讨了我们所采用的传统和最新方法，该系统有助于分类给定文本是否包含威胁。实验研究了在有限数据集情况下数据增强的影响，定量结果表明，与其他基于变压器结构的模型相比，微调多语言 - e5 基础模型在任务中表现最佳。在测试集中，宏 F1 得分达到了 68.11％，并且在该共享任务的排行榜中排名第 23 位。

Abstract

This paper presents the system that we have developed while solving this shared task on violence inciting text detection in bangla. We explain both the traditional and the recent approaches that we have used to m

violence inciting text detection bangla data augmentation multilingual-e5-base model transformer-based architectures

发现论文，激发创造

Mavericks 在 BLP-2023 任务 1 中：使用语言模型的基于合集的方法进行暴力煽动文本检测

本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速，开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中，检测暴力煽动文本的问题更加严重，因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本，每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型，然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10，宏观 F1 得分为 0.737。

Nov, 2023

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

nlpBDpatriots 在 BLP-2023 任务 1 中的两步分类：孟加拉语暴力煽动文本检测

我们讨论了 nlpBDpatriots 参与的暴力煽动文本检测共享任务，并通过两步分类使用后向翻译和多语种方法，在 27 个团队中排名第 6，宏观 F1 得分为 0.74。

Nov, 2023

RSM-NLP 在 BLP-2023 任务 2 中：使用加权和多数投票的精调 Transformer 进行孟加拉情感分析

本论文描述了我们在 BLP 研讨会的共享任务 2 中对孟加拉社交媒体帖子进行情感分析的方法，我们通过使用多语言 BERT 模型进行实验和微调，并使用多数投票和加权集成模型，取得了优于基准模型的成绩，分数为 0.711，排名共享任务排行榜的第 10 位。

Oct, 2023

利用大型语言模型对变压器模型进行优化以检测孟加拉抑郁社交媒体文本：一项综合研究

我们的研究关注心理健康和社交媒体之间的重要联系，特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT，以及先进的深度学习模型（LSTM、Bi-LSTM、GRU、BiGRU）和 Transformer 模型（BERT、BanglaBERT、SahajBERT、BanglaBERT-Base），我们对 Reddit 和 X 数据集进行分类，并由精通心理健康的母语使用者将其翻译成孟加拉文，从而创建了孟加拉社交媒体抑郁数据集（BSMDD）。我们的工作提供了每个模型的完整架构细节，并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法，使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性，并解决了 Transformer 模型的可解释性问题，强调了 LLM 的有效性，特别是 DepGPT，在各种学习环境中的灵活性和能力。根据实验结果，所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B，而且在准确度和 F1 分数方面也优于其他模型，达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804，拥有高召回率和卓越精确度。尽管竞争激烈，GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性，为抑郁症检测模型的复杂领域提供了深入的信息。

Jan, 2024

nlpBDpatriots 在 BLP-2023 任务 2 中的应用：孟加拉情感分析的迁移学习方法

本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理（BLP）研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集，该数据集由共享任务组织者提供，并注有积极、中性和消极标签，旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法，其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中，我们的最好系统排名第 12 位。

Nov, 2023

孟加拉模因和文本的多模态仇恨言论检测

本文旨在探讨利用机器学习和自然语言处理技术，通过分析包含图像和文本的 Bengali 跨媒体互动，检测恶意言论。我们准备了一个新颖的数据集，并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验，其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。

Apr, 2022

基于 Transformer 和混合深度学习模型的机器生成文本检测

该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8：多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中，我们的基于 transformer 的模型在子任务 B 中以 86.95％的准确度在 77 个团队中取得了强势的第二名，展示了该架构在此任务中的适用性。然而，我们的模型在子任务 A 中显示出了过拟合的现象，这可能通过减少微调和增加最大序列长度来修复。对于子任务 C（标记级别分类），我们的混合模型在训练过程中出现了过拟合，影响了其检测人工文本和机器生成文本之间的转换能力。

May, 2024

排名：通过基于排名的方法增强孟加拉文本摘要

本文旨在通过利用基于排名的方法，比较四种不同的预训练孟加拉文本摘要模型的输出，从而识别给定文本的最准确和最有信息量的摘要，并使用标准自然语言生成指标来评估生成的摘要的有效性，结果表明通过利用每个预训练转换器模型的优势并结合它们，我们的方法显著提高了孟加拉文本摘要的准确性和有效性。

Jul, 2023

多语言冒犯性语言识别的文本对文本模型

社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型，用于冒犯语言识别，并在两个大型冒犯语言识别数据集（SOLID 和 CCTK）上训练。研究结果表明，预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型，在多语言场景中，多语言预训练模型在所有上述数据集上实现了新的最优表现。

Dec, 2023