一种面向阿拉伯语言的观点持有者提取的机器学习方法
本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集,包括约 3.6K 个手动注释的句子,并基于 GPT-4o 提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于 LLM 的微调,并进行了数据集、注释过程以及广泛基准测试结果的深入分析,包括预训练语言模型 (PLMs) 和 LLMs。我们的分析表明,注释者在注释过程的开始阶段受到其政治、文化和宗教背景的强烈影响。实验结果表明,具有上下文学习的 LLMs 表现更好。我们旨在向社区发布该数据集和资源。
Jun, 2024
本文提出了一种利用意见表达的不同视角,构建了一种联合细粒度和粗粒度意见模型的方法,该模型具有注意力机制的某些特性,对最近发布的多模态细粒度注释语料库提供了具有竞争力的结果。
Aug, 2019
研究 Arabic 情感分析,提出了一种基于机器学习的方法和特征向量,使用人工神经网络分类器,在单词级别和文档级别进行情感分析,在单词级别获得的平均 F1-score 为 0.92,在文档级别的正类为 0.94,负类为 0.93。
May, 2022
本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究,在采用多种文本预处理和数据表现技术的前提下,证明深度学习模型胜于传统模型,我们达到了 90% 的准确性。
Mar, 2023
研究范围包括对最先进的基于 Transformer 的语言模型在意见挖掘方面的行为的研究,并对它们进行高级比较以突出它们的关键特点。此外,我们的比较研究为生产工程师提供了可关注的方法,并为研究人员提供了未来研究主题的指南。
Aug, 2023
本论文提出了一种利用真实新闻和 POS 标注生成阿拉伯语虚假新闻的新方法,并开发了第一届阿拉伯语虚假新闻检测模型,该模型通过使用基于 AraNews 的生成式新闻实现了最新的 F1=70.06 的结果,所有研究中使用的数据和模型都是公开可用的。
Nov, 2020
本文全面回顾了阿拉伯语命名实体识别技术的发展,特别是深度学习和预训练语言模型的最新进展,介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法,并指出了与其他语言 NER 技术的差距,为阿拉伯语 NER 未来的发展方向提供了参考。
Feb, 2023
该论文探讨了在阿拉伯语新闻断言验证和观点预测中使用文本蕴含的应用,并使用一个新的语料库。作者介绍了语料库的创建方法和注释过程,开发了用于两个提出的任务的两个机器学习基线:断言验证和立场预测。作者的最佳模型利用预训练(BERT),在立场预测任务上实现了 76.7 F1,在断言验证任务上实现了 64.3 F1。结果表明,尽管通过预训练学习到的语言特征和世界知识对于立场预测是有用的,但是这些学习表示对于没有上下文或证据的断言验证是不够的。
May, 2020
在阿拉伯法律分析领域中,我们的研究通过使用现有最先进的大型语言模型,全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能,并采用不同的评估指标,我们发现基于 GPT-3.5 的模型在所有模型中表现最佳,超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时,我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础,弥合计算语言学与阿拉伯法律分析之间的差距。
Oct, 2023
本研究探讨用数据驱动的子字单元、字符和卷积神经网络(CNN)学习的单词嵌入来替代传统的形态学分割,实现阿拉伯语自然语言处理(NLP)中的词分割。实验表明,这些方法在机器翻译和词性标注任务中,可以达到接近或超过最先进性能。同时,研究揭示神经机器翻译系统对源和目标令牌的比值敏感,接近 1 或更大的比值有最佳性能。
Sep, 2017