泰米尔语的形态与句法

Jan, 2024

Morphology and Syntax of the Tamil Language

Kengatharaiyer Sarveswaran

TL;DR这篇论文概述了泰米尔语的形态和句法，侧重于其当代用法，并强调了在形态和句法特征方面泰米尔语的复杂性和丰富性，这对于分析该语言和进行比较研究的语言学家有所帮助。此外，该论文对于开发泰米尔语的计算资源也非常有用。

Abstract

This paper provides an overview of the morphology and syntax of the Tamil language, focusing on its contemporary usage. The paper also highlights the complexity and richness of Tamil in terms of its morphological

tamil language morphology syntax linguists computational resources

发现论文，激发创造

IruMozhi：自动分类泰米尔双语现象

释放了一个人工注释的文学和口语泰米尔语的平行文本数据集（IruMozhi），用于训练分类器以识别文本所属的语言版本，以评估口语泰米尔语的预训练数据的可用性，并促进未来对不同版本的工作。

Nov, 2023

基于语言学的梵语词汇、句法和语义任务的神经网络结构

通过自然语言技术，本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务，即词分割、依存分析、合成类型识别和诗歌分析，提出了有关梵语自然语言处理（NLP）技术的关键问题，并在解决这些挑战的过程中提出了多项贡献，包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。

Aug, 2023

计算形态学的最新进展：综述

该研究综述了发展计算形态学相关工具的方法，从传统方法到基于深度神经网络的新方法的历史文献进行了调查，讨论了神经模型与传统模型的有效性，并提出了构建计算形态学工具所面临的独特挑战，最后讨论了该领域中的一些最新研究问题。

Jun, 2024

低资源语言的形态处理：现状与展望

通过调查计算形态学在低资源语言中的应用、提出在现有技术的基础上对原始文本进行语言形态学理解的挑战并进行实证研究，展示在设计的两个新模型的辅助下，现有的技术可以在一定程度上完成任务，但仍有很大的提升空间，解决此任务将大幅提高形态学资源的语言覆盖度。

Mar, 2022

乌尔都语形态学、正字法和词汇提取

本文描述了将乌尔都语作为软件 API 实现的过程，包括正字法、形态学和词汇提取，并使用功能形态学工具包实现了乌尔都语的形态学。该实现能够在关键词的智能搜索、语言培训和句法基础设施等应用中复用，并演示了一小段乌尔都语句法的实现，展示了该实现的良好重用性。

Apr, 2022

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Nov, 2023

无国界的形态学：从子句层面考虑

本文通过提出一种基于句子层面的形态学，并创建了一个新的、基于句子层面的多语言数据集 MightyMorph，得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性，同时提供一种方便的界面与语境化语言模型（LMs）相接，评估这些模型中编码的形态学知识和它们用于形态学任务的可用性，为跨语言神经形态的研究打开了新的视野。

Feb, 2022

词之间的语义关系获取

本文探讨了语义关系与不同语言形态学方面之间的动态相互作用，通过研究语言形态学和语义关系之间复杂的关系，可以得出关于词汇结构如何影响语言理解的宝贵见解。

Jul, 2023

L2 语言学习的自动提取语法概念的教师感知

通过自动发现和可视化语法描述，本研究旨在帮助语言教育专家自动创建材料，以便教授印度语言中的语法和语义知识。

Oct, 2023

自动提取语法知识对 L2 语言学习的教师感知

本研究介绍了一个自动框架，旨在通过自动发现和可视化语法的不同方面来促进语言教学，其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述，并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法，以评估其实用性，并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣，可以用作自己的课程准备或学习者评估的参考资料。

Jun, 2022