CIDAR: 针对阿拉伯文的文化相关教学数据集

Feb, 2024

CIDAR: 针对阿拉伯文的文化相关教学数据集

CIDAR: Culturally Relevant Instruction Dataset For Arabic

Zaid Alyafeai, Khalid Almubarak, Ahmed Ashraf, Deema Alnuhait, Saied Alshahrani...

TL;DR这篇论文介绍了 CIDAR，这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集，CIDAR 拥有 10,000 个指令和输出对，代表着阿拉伯地区，实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。

Abstract

instruction tuning has emerged as a prominent methodology for teaching Large Language Models (LLMs) to follow instructions. However, current instruction datasets predominantly cater to English or are derived from English-dominated LLMs, resulting in inherent biases toward Western cultu

instruction tuning large language models arabic cidar cultural alignment

发现论文，激发创造

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

COIG-CQIA：中文指导微调只需一切皆优质

近年来，大型语言模型在英语方面取得了显著进展，但在中文指令调整方面仍存在差距。为了缩小这一差距，本研究介绍了 COIG-CQIA，一个高质量的中文指令调整数据集，并通过训练模型和深度评估分析，提供了有关选择和开发中文指令调整数据集的宝贵见解。研究表明，在 CQIA-Subset 上训练的模型在人员评估以及知识和安全基准方面取得了有竞争力的结果。

Mar, 2024

CRAFT: 从野外提取和调整文化指引

本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令，并与通用指令调优数据集相结合，我们的模型展示出了较强的识别和理解区域文化细微差别的能力，从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验，取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径，并为未来在该领域的创新设立了先例。

May, 2024

从基础到会话：日语指导数据集和调整大型语言模型

我们构建了一个日本指令数据集，并将其应用于一个日本预训练基础模型。通过我们的指令数据集，对日本和英文现有模型进行了低秩调整（LoRA）。从定量和定性的角度评估了这些模型，结果证实了日本指令数据集的有效性。同时也指出，即使在相对较小的大语言模型中，通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。

Sep, 2023

Aya 数据集：一份用于多语言指导调优的开放获取集合

本研究针对英语语言数据集的局限性，通过与全球流利的语言使用者合作，建立了覆盖 65 种语言的人工策划指令跟随数据集，并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集，共包含 5.13 亿个实例。此外，我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源，而且 Aya 倡议还是一项有价值的参与性研究案例，涉及来自 119 个国家的合作者，我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。

Feb, 2024

利用领域适应和数据增强提高英语和阿拉伯语中古兰经 IR 的效果

通过最新的神经信息检索方法，我们研究了如何更高效地处理阿拉伯语和英语的古兰经信息检索问题。通过在大量通用领域数据上进行训练，然后在特定领域数据上继续训练，并采用数据增强技术，我们取得了在 MRR@10 和 NDCG@5 指标上明显改善的成果，为英语和阿拉伯语的古兰经信息检索设立了新的技术标杆。

Dec, 2023

Masader: 面向阿拉伯文本和语音数据资源的元数据采集

该论文描述了最近几年自然语言处理管道的进展，重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader，以及为其他语言开发的元数据注释策略。

Oct, 2021

Bactrian-X: 低秩适应的多语言可复制指令跟随模型

本文介绍了如何使用 Bactrian-X 数据集；使用低秩适应（LoRA）的一组 adapter 进行多语言指令优化，取得了比现有模型更优的效果。

May, 2023

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

ArBanking77：意图检测的神经模型与现代及辩证阿拉伯语言的新数据集

这篇论文介绍了 ArBanking77，这是一个在银行领域用于意图检测的大型阿拉伯语数据集。我们从原始的英文 Banking77 数据集进行了阿拉伯化和本土化处理，生成了 ArBanking77 数据集，其中包含了 31,404 个现代标准阿拉伯（MSA）和巴勒斯坦方言的查询，每个查询被分类为 77 个类别（意图）。此外，我们还提出了基于 AraBERT 的神经模型，经过在 ArBanking77 上微调后，在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了大量实验证明，在低资源环境下，该模型通过在部分数据上训练，并使用噪声查询进行扩充以模拟现实中自然语言处理系统（尤其是实时聊天查询）中的口语术语、错误和拼写错误。数据集和模型均可在此链接处公开获得。

Oct, 2023