Jambu 南亚语言历史语言数据库
本文探讨了南亚语言技术中的数据散布问题,并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚 NLP 和历史 - 比较语言学交叉领域的最新发展,并提出了打破数据壁垒的新策略。
Mar, 2022
使用跨语言词向量检测印度 14 种语言的同源词,通过知识图谱生成上下文特征表示以提高同源词检测方法,并在 12 种印度语言和 2 种新语言上评估此方法,获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进,最后公开代码和数据集。
Dec, 2021
该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库,其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。
Oct, 2020
本文介绍我们正在进行的工作,使用语言学数据收集的领域方法,为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法,大部分是在 COVID-19 疫情期间进行的,目的之一是为讲这些语言的低收入群体提供额外的收入来源,并讨论了这些语言的自动语音识别系统的基线实验结果。
Jun, 2022
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018
Kencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.
Aug, 2022
使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式,构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子,涵盖 9 种语言的 3 种标准实体类别(人物、地点和组织),并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80,是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。
Dec, 2022
该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集,同时提供了 IndicSUPERB 基准集,为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估,证明了 Self-supervised 模型在语言识别任务中的优势。
Aug, 2022
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024