BriefGPT.xyz
大模型
Ask
alpha
关键词
arabic corpus
搜索结果 - 3
面向语言建模的大规模多样化阿拉伯语语料库
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5
→
PDF
2 years ago
ACL
立场预测和主张验证:阿拉伯视角
该论文探讨了在阿拉伯语新闻断言验证和观点预测中使用文本蕴含的应用,并使用一个新的语料库。作者介绍了语料库的创建方法和注释过程,开发了用于两个提出的任务的两个机器学习基线:断言验证和立场预测。作者的最佳模型利用预训练(BERT),在立场预测任
→
PDF
4 years ago
15 亿词的阿拉伯语语料库
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1
→
PDF
8 years ago
Prev
Next