通用语言建模代理

Jun, 2023

Universal Language Modelling agent

Anees Aslam

TL;DR本文提出了一种基于古兰经语言结构的新方法，利用词嵌入技术分析动物的语音数据中的频率组件，以解锁动物交流中潜在的相关性和有意义的见解，并利用生物声学模型生成音频以培训自然语言处理技术，旨在找到动物语言背后的意图而不是每个单词的翻译。

Abstract

large language models are designed to understand complex Human Language. Yet, Understanding of animal language has long intrigued researchers striving to bridge the communication gap between humans and other spec

large language models animal language quran word embedding bioacoustics model

发现论文，激发创造

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

古兰经对话：利用阿拉伯自然语言处理技术开发古兰经的语义搜索工具

研发了一种《古兰经语义搜索工具》，通过在超过 30 个《注释》数据集上训练多个模型，使用余弦相似度，在 Quran 中找到与用户查询或提示相关的经文。使用 SNxLM 模型，能够获得高达 0.97 的余弦相似度分数，与财务事务相关的经文对应的注释是 abdu。

Nov, 2023

基于动物交流理解的无监督翻译理论

我们提出了一个理论框架，用于分析无平行数据可用且源语料库与目标语料库不相干或具有相似语言结构时的 UMT，并且研究表明翻译准确性取决于源语言的复杂性和源语言与目标先验之间的 “共同基础”。

Nov, 2022

构建与伊斯兰世界观相符的领域专用 LLMs：幻觉还是技术可能性？

构建与伊斯兰世界观一致的领域特定大型语言模型 (Large Language Models) 的挑战、解决方案和评估方法的研究。

Dec, 2023

Qur'an QA 2022 中的 TCE：使用基于 BERT 的模型的加工集成进行古兰经阿拉伯语问答

本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试，基于 BERT 模型的阿拉伯语变体，我们提出了一种集成学习模型，并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6％的部分倒数排名（pRR）分数。

Jun, 2022

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B)，并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

任何可想象机制的限制之外：大语言模型与心理语言学

大型语言模型在心理语言学中扮演重要角色，因为它们是实用的工具、比较性的例证，并对重新审视语言和思维的关系具有哲学意义。

Feb, 2023

语言与大型语言模型之间的去向问题

人工智能，自然语言处理，大型语言模型和科学模型在语言方面的应用和发展的研究。

Oct, 2023

利用多语言资源进行阿拉伯语问答

使用基于 BERT 的多语言模型并利用领域特定的大型阿拉伯语语料库，训练两个 BERT 模型实现确定问题答案起始位置和可行答案的排序。

May, 2022