- 面向阿拉伯方言的零射 Text-To-Speech
构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。
- ThatiAR:阿拉伯新闻句子主观性检测
本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集,包括约 3.6K 个手动注释的句子,并基于 GPT-4o 提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于 LLM 的微调,并进行了数据集、注释过程以及广泛基准测试结果的深入分析, - ACL论鲁棒知识蒸馏的稳健性问题
在阿拉伯语自动语音识别(ASR)方面存在独特的挑战,为了克服这些挑战,本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型,引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上,我们的最佳蒸馏模型 - MentalQA:一个用于心理保健问题和回答的阿拉伯语语料库
本研究介绍了 MentalQA,一个新颖的阿拉伯语数据集,提供问题和答案的对话式交互。该数据集为开发阿拉伯语文本挖掘工具提供了基础,以支持心理健康专业人员和寻求信息的个人。
- AraSpell:一种用于阿拉伯语拼写纠正的深度学习方法
使用不同的 seq2seq 模型架构(如递归神经网络(RNN)和 Transformer)和人工数据生成进行错误注入,本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell,并通过彻底的实验研究提供了所提方法的有效性的经验论据,其与标 - 101 亿阿拉伯语词汇数据集
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词 - COLINGSAMER 阿拉伯文本简化语料库
我们提出了 SAMER 语料库,这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说,总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注,并提供了针对不同可读性水 - AraTrust: 评估阿拉伯语 LLM 的可信度
提出了第一个全面的阿拉伯语语言模型信任度基准 ——AraTrust,其中包含了多个方面的真实性、伦理、安全性、身体健康、心理健康、不公正、非法活动、隐私和冒犯性语言的 516 道人工多项选择题。通过引入 AraTrust,旨在促进共同努力, - 多语言情感分析的集成语言模型
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预 - 基于阿拉伯语同义词 BERT 的文本分类对抗样本
通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。 - CIDAR: 针对阿拉伯文的文化相关教学数据集
这篇论文介绍了 CIDAR,这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集,CIDAR 拥有 10,000 个指令和输出对,代表着阿拉伯地区,实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。
- 阿拉伯推特行为:用加权集成预训练变换器模型对推特上的阿拉伯语言行为进行分类
提出了一种基于变压器深度学习神经网络的推特方言阿拉伯语言言行为分类方法,并采用 BERT 加权集成学习方法,在阿拉伯语言言行为分类中得到了最佳性能。
- 阿拉伯光学字符识别的进展与挑战:综述
光学字符识别 (OCR) 是一个重要的过程,它涉及从扫描或打印图像中提取手写或印刷文字,将其转换为机器能够理解和处理的格式。本文旨在全面审查与阿拉伯光学字符识别 (OCR) 相关的当代应用、方法和挑战。通过对 OCR 过程中常用的技术进行彻 - 有毒语言检测:阿拉伯数据集的系统调查
本文综合调查了关于阿拉伯语在线毒性语言的数据集,收集了 49 个可用的数据集及其相应的论文,并对其进行了全面分析,考虑了内容、注释过程和可重复使用性三个主要维度的 16 个标准。通过这一分析,我们发现了现有的差距,并对今后的研究工作提出了建 - 无监督图注意力自编码器用于带属性网络的 K 均值丢失
利用最新的转换器和特征提取工具构建阿拉伯语多模态数据集,验证其在多模态学习中的效果,并展示阿拉伯语多模态研究的潜力。
- 紫罗兰:一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型
基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet,通过从现有英文数据集中自动获取数据,并手动准备新的数据集进行评估,显著提高了在所有评估数据集上的性能。
- 三个神话、一个谜题及其解决方案
通过对阿拉伯语的基本原理进行研究,我们证明现代逻辑学中关于自然语言词汇用途、语法结构以及符号的理论与阿拉伯语存在矛盾,并提出了一种实用的方法来解决 3CNF 公式的产生问题,相关证据支持我们的论点。
- ArTST:阿拉伯文本和语音转换器
我们提供了 ArTST,这是一个预先训练的阿拉伯文本和语音转换器,支持用于阿拉伯语言的开源语音技术。该模型的架构遵循最近发布的英语统一模态框架 SpeechT5,并且专注于现代标准阿拉伯语(MSA),未来版本计划将该模型扩展为方言和混合阿拉 - Rosetta Stone 在 KSAA-RD 共享任务中的应用:从语言建模到词定义对齐
以阿拉伯逆向词典为例,通过阿拉伯文或英文定义为输入,使用模型预测词嵌入并通过取平均值得到最终的表示,另外将英文定义翻译为阿拉伯文并应用于模型也是有效的解决方法。
- 分析多语言 LLM 在多轮指令跟踪中的能力:阿拉伯语的案例研究
在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学