泰米尔语的形态与句法
释放了一个人工注释的文学和口语泰米尔语的平行文本数据集(IruMozhi),用于训练分类器以识别文本所属的语言版本,以评估口语泰米尔语的预训练数据的可用性,并促进未来对不同版本的工作。
Nov, 2023
通过自然语言技术,本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务,即词分割、依存分析、合成类型识别和诗歌分析,提出了有关梵语自然语言处理(NLP)技术的关键问题,并在解决这些挑战的过程中提出了多项贡献,包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。
Aug, 2023
该研究综述了发展计算形态学相关工具的方法,从传统方法到基于深度神经网络的新方法的历史文献进行了调查,讨论了神经模型与传统模型的有效性,并提出了构建计算形态学工具所面临的独特挑战,最后讨论了该领域中的一些最新研究问题。
Jun, 2024
通过调查计算形态学在低资源语言中的应用、提出在现有技术的基础上对原始文本进行语言形态学理解的挑战并进行实证研究,展示在设计的两个新模型的辅助下,现有的技术可以在一定程度上完成任务,但仍有很大的提升空间,解决此任务将大幅提高形态学资源的语言覆盖度。
Mar, 2022
本文描述了将乌尔都语作为软件 API 实现的过程,包括正字法、形态学和词汇提取,并使用功能形态学工具包实现了乌尔都语的形态学。该实现能够在关键词的智能搜索、语言培训和句法基础设施等应用中复用,并演示了一小段乌尔都语句法的实现,展示了该实现的良好重用性。
Apr, 2022
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
本文通过提出一种基于句子层面的形态学,并创建了一个新的、基于句子层面的多语言数据集 MightyMorph,得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性,同时提供一种方便的界面与语境化语言模型(LMs)相接,评估这些模型中编码的形态学知识和它们用于形态学任务的可用性,为跨语言神经形态的研究打开了新的视野。
Feb, 2022
本研究介绍了一个自动框架,旨在通过自动发现和可视化语法的不同方面来促进语言教学,其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述,并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法,以评估其实用性,并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣,可以用作自己的课程准备或学习者评估的参考资料。
Jun, 2022