评估用于梵语的神经形态标注器
通过自动构建知识图谱的框架、引入本体驱动和通用任务的注释工具,以及提供多样化的网页界面、工具和软件库,我们在梵语的知识系统发展中解决了挑战与机遇,尤其在问答方面。这些贡献不仅提高了梵语文本分析的可访问性和准确性,而且为知识表达和语言处理领域的进一步发展铺平了道路。最终,这项研究对于保护、理解和利用梵语文本中所蕴含的丰富语言信息具有重要意义。
Jun, 2024
历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交,重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人(2023 年)的分层分词方法,并结合 DeBERTa-V3 架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级 T5 模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此 https URL 找到。
May, 2024
通过提出嵌套复合词类型识别(NeCTI)任务,本研究介绍了一个新颖的方法来识别多组分复合词的嵌套结构,并解码它们之间的隐含语义关系,通过提出 Dependency-based Nested Compound Type Identifier(DepNeCTI)框架,显著提升了性能和推理效率。
Oct, 2023
通过构建一个知识图谱以及应用该图谱回答事实型问题,本文探讨了从梵语文本中提取特定关系的难题,分析了系统在每个步骤中的不足之处,并讨论了未来的可能发展方向。
Oct, 2023
我们提出了 DictaBERT,这是一种用于现代希伯来语的最新预训练 BERT 模型,其在大多数基准测试上超越了现有模型。此外,我们发布了两个针对希伯来文本分析中的两个基础任务进行了细化调整的模型版本:前缀分词和形态标记。这些经过精细调整的模型可以让任何开发者通过调用 HuggingFace 模型的一个简单调用来进行希伯来语句子的前缀分词和形态标记,而不需要集成任何额外的库或代码。在本文中,我们详细描述了训练细节以及在不同基准测试上的结果。我们将这些模型及其使用示例代码发布给社区,作为我们促进希伯来语自然语言处理领域进一步研究和开发的目标的一部分。
Aug, 2023
本文介绍了一个名为 SAHAAYAK 2023 的低资源语言 Sanskrit-Hindi 的大型双语平行语料库,包括新闻,日常对话,政治,历史,体育和古印度文学的多个领域,以及通过挖掘,清洗和验证而得到的多方面的方法制作的一个规模可观的多领域语料库,并应用于机器翻译算法。
Jun, 2023
我们发布了一个数据集,包含超过 42,000 个英汉平行句子,旨在填补现有涵盖当代修辞体的数字梵语语料库的空白。此外,我们还发布了来自现代语料库和包含梵语的以前发布的古典时代机器翻译数据集的训练样本,以适应现有的多语言预训练模型。
May, 2023
本文提出一种基于标签引导的注意力蒸馏方法(LGAD),用于训练分割网络以更好地捕捉诸如车道标记之类的长程上下文信息。通过将标签结构信息嵌入教师网络中,并利用其注意力图作为学生网络的监督信号,能够显著提高学生网络的训练效果。
Apr, 2023
本研究使用 BERT-based 语言模型对谷歌翻译进行 Bhagavad Gita 梵文文本的感情和语义分析,结果表明与专家翻译相比,谷歌翻译在选定诗句中的相似度水平很低。由于梵文的诗意性、上下文的重要性、隐喻和意象,谷歌翻译在翻译某些梵文词语和短语方面并不适用。
Feb, 2023
使用 n-aksaras 将梵文文本进行分词,使得在文本分析中无需解决 sandhi 等问题,测试结果显示可以跨越十个世纪和九种语言进行文本重用模式的分析,并对佛教评论实践的一些初步观察进行了讨论。
Jan, 2023