公开可用的僧伽罗语自然语言处理工具与研究调查
本研究介绍了 NSINA,这是一个由 500,000 篇流行信拉语新闻网站上的文章构成的全面新闻语料库,并提出了三个自然语言处理任务:新闻媒体识别、新闻类别预测和新闻标题生成,旨在解决适用 LLMs 到信拉语的挑战,并为改进信拉语自然语言处理提供宝贵的资源和基准。NSINA 是迄今为止最大的信拉语新闻语料库。
Mar, 2024
本文评述十二百万使用者的塞尔维亚语在自然语言处理中遇到的低语言资源和多屈折形式的困难,以及过去三十年来发展的从语料库到不同任务的标注,各种方法和模型。
Apr, 2023
本文介绍来自 LIRNEasia 的 Data, Analysis and Policy 团队的两个疯狂的僧伽罗语语料库,以及一个算法派生的停止词列表。其中较大的语料库跨越 2010 年到 2020 年,包含了斯里兰卡的 533 个 Facebook 页面发布的 28,825,820 到 29,549,672 个多语种文本,包括政治、媒体、名人和其他类别;较小的语料库仅包含从较大的语料库中提取出的 5,402,76 个僧伽罗语文本。两个语料库都有它们创作日期、来源页面和内容类型的标记。
Jul, 2020
利用可用的对齐技术,本研究试图对齐僧伽罗语和英语单词嵌入空间,并引入了僧伽罗语嵌入对齐的基准。此外,为了促进有监督的对齐,我们还引入了僧伽罗语 - 英语对齐数据集,作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比,我们的结果并不可比,但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。
Nov, 2023
本文探讨了南亚语言技术中的数据散布问题,并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚 NLP 和历史 - 比较语言学交叉领域的最新发展,并提出了打破数据壁垒的新策略。
Mar, 2022
该研究是第一篇全面分析面向 Sinhala 文本分类的预训练语言模型性能的文章。我们在一组不同的 Sinhala 文本分类任务上进行测试,发现包含 Sinhala 的预训练多语言模型(XLM-R,LaBSE 和 LASER)中,XLM-R 是迄今为止最好的模型。我们还预训了两种基于 RoBERTa 的单语 Sinhala 模型,这些模型比现有的预训练语言模型在 Sinhala 方面更为优越。我们表明,当对这些预训练语言模型进行微调时,它们为 Sinhala 文本分类设定了非常强大的基线,并且在标记数据不足以进行微调的情况下具有鲁棒性。我们进一步提供了一组关于使用 Sinhala 文本分类的预训练模型的建议。我们还推出了未来 Sinhala 文本分类研究中有用的新的注释数据集,并公开了我们的预训练模型。
Aug, 2022
本论文介绍了一种估算全球语言技术的实用性的框架,并量化了 NLP 研究现状中存在的差异性,探讨了其相关的社会和学术因素,并为基于证据的政策制定提出了定制的建议,旨在促进更全球和公平的语言技术。
Oct, 2021
本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。
Dec, 2022
为了解决低资源语言缺乏人工标注的问题,本研究提出了三个用于英语和僧伽罗语自然语言处理任务的平行英 - 僧伽罗词典数据集,并介绍了数据集创建流程和验证数据集质量的实验结果。
Aug, 2023