利用 BERT 语言模型进行阿拉伯语长文档分类
本文介紹了 AraLegal-BERT 模型,評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。
Oct, 2022
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
本文主要研究阿拉伯语文本数据的分类,特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练,发现了具有竞争力的阿拉伯语特定模型(AraBERT),并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。
Jul, 2023
本研究使用 BERT 进行文档分类,并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销,研究者提出使用知识蒸馏技术,将 BERT 的知识转移到小型双向 LSTM 中,并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平,为未来的工作提供了基础。
Apr, 2019
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
在阿拉伯法律分析领域中,我们的研究通过使用现有最先进的大型语言模型,全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能,并采用不同的评估指标,我们发现基于 GPT-3.5 的模型在所有模型中表现最佳,超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时,我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础,弥合计算语言学与阿拉伯法律分析之间的差距。
Oct, 2023
介绍了 AraPoemBERT,这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型,通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性,该模型在大多数下游任务中表现出色,取得了最新成果的结果。
Mar, 2024