评估孟加拉语词汇类比
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。
May, 2022
评估大型语言模型(LLMs)在低资源语言中的性能,结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳,呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解
Sep, 2023
本研究利用自定义句子分段器和两种新方法,构建一个高质量的孟加拉语 - 英语双语平行语料库,从而提高孟加拉语机器翻译的 BLEU 指标,并评估了一个包含 1000 个双语句对的测试集,释放了分段器,平行语料库和评估集,为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。
Sep, 2020
通过跨语言检索增强的方法,我们的研究论文提出了一种创新的方法,利用高资源语言中语义相似的提示来提高多语言预训练语言模型在孟加拉语任务上的性能。详细评估表明,跨语言检索增强的提示对于多语言预训练语言模型的性能有稳定的提升作用。
Nov, 2023
介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。
Jan, 2021
本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制,因此提出一个大规模的孟加拉语电子书评论数据集, 使用各种机器学习模型分析数据,发现预训练模型比手工特征模型具有更高的性能,同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分类错误的见解。
May, 2023
本文介绍了 BanglaParaphrase,这是一个高质量的合成孟加拉语复述数据集,通过新的过滤管道筛选。我们旨在通过引入 BanglaParaphrase,提高孟加拉语在 NLP 领域的低资源状态,通过保留语义和多样性确保质量,并详细阐述我们的数据集和模型与其他现有作品之间的比较分析
Oct, 2022
本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集,并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习,与精细调优模型进行了比较分析。研究结果表明,在零指导和少量指导的场景下,单语言变换器模型始终优于其他模型。为了促进进一步的研究探索,我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。
Aug, 2023
该研究以 BanglaBert 为基础,利用多种策略进行情感分析,并建立了一个包含三种最佳 BanglaBert 变体的集成模型,在 BLP-2023 中的排名为第三。
Nov, 2023