BriefGPT.xyz
Ask
alpha
关键词
south asian languages
搜索结果 - 4
COLING
低资源南亚语言中的多语言共指消解
通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模
→
PDF
5 months ago
Jambu 南亚语言历史语言数据库
Jambu 是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库,它包含来自 602 个方言的 287,000 个词元,这些词元分成了 23,000 个同源集。我们概述了必要的数据处理方法,并针对数据的印度 - 雅利安子集训练了
→
PDF
a year ago
使用拉丁字母编写的南亚语言处理:Dakshina 数据集
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
PDF
4 years ago
PMIndia -- 印度语言平行语料库集合
本研究提供了一个新的公开平行语料库(PMIndia),其中包含 13 种主要印度语言和英语的成对平行句子,每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述,同时还介绍了该语料库在 NMT 方面的一
→
PDF
4 years ago
Prev
Next