BLP-2023 任务 2 的低资源方案:利用 BanglaBert 进行孟加拉语低资源情感分析
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。
Jan, 2021
本论文描述了我们在 BLP 研讨会的共享任务 2 中对孟加拉社交媒体帖子进行情感分析的方法,我们通过使用多语言 BERT 模型进行实验和微调,并使用多数投票和加权集成模型,取得了优于基准模型的成绩,分数为 0.711,排名共享任务排行榜的第 10 位。
Oct, 2023
本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理(BLP)研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集,该数据集由共享任务组织者提供,并注有积极、中性和消极标签,旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法,其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中,我们的最好系统排名第 12 位。
Nov, 2023
本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集,并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习,与精细调优模型进行了比较分析。研究结果表明,在零指导和少量指导的场景下,单语言变换器模型始终优于其他模型。为了促进进一步的研究探索,我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。
Aug, 2023
本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。
May, 2022
本研究利用自定义句子分段器和两种新方法,构建一个高质量的孟加拉语 - 英语双语平行语料库,从而提高孟加拉语机器翻译的 BLEU 指标,并评估了一个包含 1000 个双语句对的测试集,释放了分段器,平行语料库和评估集,为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。
Sep, 2020
本文描述了我们为 SemEval-2023 任务 12 而设计的系统:对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题,我们提出了一个通用的多语言系统 SACL-XLMR,用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色,并在零样本分类子任务中获得了官方排名的第一名。
Jun, 2023
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
通过 SemEval-2023 任务 12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟 Bert)、Multilingual-BERT 和 BERT 模型对 14 种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023