突厥中亚语言处理的最新进展与挑战
本研究通过对土耳其语系22种语言的大规模机器翻译系统的培训和评估,发现MNMT模型在领域外测试集中的表现优于几乎所有双语基线,并在单对下游任务的微调中也获得了巨大的性能提升。
Sep, 2021
本研究介绍了KazakhTTS2语料库的构建过程,并提供了TTS系统的训练和评估细节。本语料库足以为Kazakh和其他Turkic语言的语音和语言研究提供帮助,其公开可用于构建高质量的TTS系统。
Jan, 2022
本文主要介绍了一个名为Mukayese的NLP基准集,它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试,并且为每个基准测试提供多个数据集和基准值。
Mar, 2022
本文探讨了南亚语言技术中的数据散布问题,并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚NLP和历史-比较语言学交叉领域的最新发展,并提出了打破数据壁垒的新策略。
Mar, 2022
本文综述了土耳其语的语料库和词汇资源,并特别关注公开可用的资源。除了提供可用语言资源的信息,我们还提出了一系列建议,并发现了土耳其语言学和自然语言处理研究和应用构建所需的数据差距。
Apr, 2022
本研究旨在解决少数民族语言技术中面临的数据缺乏问题,提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法,并探讨了语言识别任务在不同库尔德语言种和扎扎-戈拉尼语中的研究。
Apr, 2023
该研究旨在开发一个针对十种低资源的土耳其语言的多语言文本到语音(TTS)合成系统,特别针对零样本学习场景,通过用Tacotron 2架构基于哈萨克语的数据训练端到端TTS系统,基于将土耳其字母映射到国际音标(IPA)符号并转换为哈萨克字母,产生其他土耳其语言的语音,对多语言土耳其TTS模型进行了主观评估并取得了良好的结果。
May, 2023
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
介绍了一种开创性的英语-阿塞拜疆语(阿拉伯字母表)平行语料库,旨在弥补在语言学习和机器翻译方面的技术差距,对于资源有限的语言。它由新闻文章和圣典等多种来源构成,旨在增强自然语言处理应用和语言教育技术。通过提出针对英语-阿塞拜疆语(阿拉伯字母表)语言对的首个全面案例研究,这项工作强调了神经机器翻译在资源匮乏环境中的转型潜力。该语料库的开发和利用不仅有助于推动为特定语言需求量身定制的机器翻译系统的发展,还通过技术促进包容性语言学习。研究结果表明,该语料库在训练深度学习机器翻译系统方面的有效性,并突出了其作为研究人员和教育工作者的重要资产,目标是促进双语教育和多语交流。这项研究为对数字资源相对缺乏的语言的神经机器翻译应用开辟了未来的探索道路,从而提升全球语言教育框架。
Jul, 2024