Jambu 南亚语言历史语言数据库

Jun, 2023

Jambu: A historical linguistic database for South Asian languages

Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala

TL;DRJambu 是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库，它包含来自 602 个方言的 287,000 个词元，这些词元分成了 23,000 个同源集。我们概述了必要的数据处理方法，并针对数据的印度 - 雅利安子集训练了反射预测的神经模型。我们希望 Jambu 成为所有历史语言学家和印度学家的宝贵资源，并期待进一步改进和扩展数据库。

Abstract

We introduce jambu, a cognate database of south asian languages which unifies dozens of previous sources in a structured and accessible fo

jambu cognate database south asian languages cognates neural models

发现论文，激发创造

南亚的计算历史语言学和语言多样性

本文探讨了南亚语言技术中的数据散布问题，并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚 NLP 和历史 - 比较语言学交叉领域的最新发展，并提出了打破数据壁垒的新策略。

Mar, 2022

利用跨语言特征提高低资源语言同源词检测的效果

使用跨语言词向量检测印度 14 种语言的同源词，通过知识图谱生成上下文特征表示以提高同源词检测方法，并在 12 种印度语言和 2 种新语言上评估此方法，获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进，最后公开代码和数据集。

Dec, 2021

Anubhuti -- 一份用于孟加拉短篇小说情感分析的标注数据集

该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库，其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。

Oct, 2020

印度低资源语言的带注释语音语料库：Awadhi、Bhojpuri、Braj 和 Magahi

本文介绍我们正在进行的工作，使用语言学数据收集的领域方法，为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法，大部分是在 COVID-19 疫情期间进行的，目的之一是为讲这些语言的低收入群体提供额外的收入来源，并讨论了这些语言的自动语音识别系统的基线实验结果。

Jun, 2022

自动识别接近的印度语言：资源和实验

本文讨论了一个自动语言识别系统的尝试，该系统用于印度 5 种密切相关的印度雅利安语言：阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库，编译了这些语言的长度不同的语料库。使用这些语料库，开发了一个语言识别系统，目前的准确率为 96.48％。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性，这是这些语言亲和度首个基于数据的研究。

Mar, 2018

Kencorpus: 一个用于自然语言处理任务的肯尼亚斯瓦希里语、多鲁奥语和卢希亚语语料库

Kencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.

Aug, 2022

Bhāṣācitra：南亚方言地理的可视化

该研究介绍了 Bhāṣācitra—— 一个面向南亚的方言映射系统，可用于语言覆盖分析和数据可视化，旨在为南亚语言学家提供交互式参考书目。

May, 2021

Naamapadam：用于印度语言的大规模命名实体标注数据

使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式，构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子，涵盖 9 种语言的 3 种标准实体类别（人物、地点和组织），并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80，是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。

Dec, 2022

IndicSUPERB：印度语言语音处理通用性能基准

该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集，同时提供了 IndicSUPERB 基准集，为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估，证明了 Self-supervised 模型在语言识别任务中的优势。

Aug, 2022

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024