突厥中亚语言处理的最新进展与挑战

Jul, 2024

突厥中亚语言处理的最新进展与挑战

Recent Advancements and Challenges of Turkic Central Asian Language Processing

Yana Veitsman

TL;DR通过概述土耳其语族中亚语言（包括哈萨克语、乌兹别克语、吉尔吉斯语和土库曼语）研究的语言学特性、已开发技术的当前覆盖和性能、从高资源语言应用迁移学习技术以及每种语言的标注和无标注数据的可用性等，本文总结了当前情况，希望为进一步的研究提供参考。

Abstract

Research in the nlp sphere of the turkic counterparts of Central Asian languages, namely Kazakh, Uzbek, Kyrgyz, and Turkmen, comes with the typical challenges of →

发现论文，激发创造

突厥语言机器翻译的大规模研究

本文是大规模实际应用机器翻译于突厥语系的案例研究，在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈，并提供这些数据与模型的公开开放。

Sep, 2021

评估土耳其语系多语言多向NMT技术

本研究通过对土耳其语系22种语言的大规模机器翻译系统的培训和评估，发现MNMT模型在领域外测试集中的表现优于几乎所有双语基线，并在单对下游任务的微调中也获得了巨大的性能提升。

Sep, 2021

KazakhTTS2：扩充开源哈萨克语TTS语料库，更多数据，讲话人和主题

本研究介绍了KazakhTTS2语料库的构建过程，并提供了TTS系统的训练和评估细节。本语料库足以为Kazakh和其他Turkic语言的语音和语言研究提供帮助，其公开可用于构建高质量的TTS系统。

Jan, 2022

Mukayese：土耳其自然语言处理反击

本文主要介绍了一个名为Mukayese的NLP基准集，它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试，并且为每个基准测试提供多个数据集和基准值。

Mar, 2022

南亚的计算历史语言学和语言多样性

本文探讨了南亚语言技术中的数据散布问题，并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚NLP和历史-比较语言学交叉领域的最新发展，并提出了打破数据壁垒的新策略。

Mar, 2022

土耳其自然语言处理资源：关键调查

本文综述了土耳其语的语料库和词汇资源，并特别关注公开可用的资源。除了提供可用语言资源的信息，我们还提出了一系列建议，并发现了土耳其语言学和自然语言处理研究和应用构建所需的数据差距。

Apr, 2022

低资源语言技术语料库构建方法研究：以南库尔德语和拉基语为例

本研究旨在解决少数民族语言技术中面临的数据缺乏问题，提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法，并探讨了语言识别任务在不同库尔德语言种和扎扎-戈拉尼语中的研究。

Apr, 2023

使用音译法进行突厥语的多语言语音合成

该研究旨在开发一个针对十种低资源的土耳其语言的多语言文本到语音(TTS)合成系统，特别针对零样本学习场景，通过用Tacotron 2架构基于哈萨克语的数据训练端到端TTS系统，基于将土耳其字母映射到国际音标(IPA)符号并转换为哈萨克字母，产生其他土耳其语言的语音，对多语言土耳其TTS模型进行了主观评估并取得了良好的结果。

May, 2023

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

通过技术提升语言学习：介绍一种新的英语-阿塞拜疆语（阿拉伯字母）平行语料库

介绍了一种开创性的英语-阿塞拜疆语（阿拉伯字母表）平行语料库，旨在弥补在语言学习和机器翻译方面的技术差距，对于资源有限的语言。它由新闻文章和圣典等多种来源构成，旨在增强自然语言处理应用和语言教育技术。通过提出针对英语-阿塞拜疆语（阿拉伯字母表）语言对的首个全面案例研究，这项工作强调了神经机器翻译在资源匮乏环境中的转型潜力。该语料库的开发和利用不仅有助于推动为特定语言需求量身定制的机器翻译系统的发展，还通过技术促进包容性语言学习。研究结果表明，该语料库在训练深度学习机器翻译系统方面的有效性，并突出了其作为研究人员和教育工作者的重要资产，目标是促进双语教育和多语交流。这项研究为对数字资源相对缺乏的语言的神经机器翻译应用开辟了未来的探索道路，从而提升全球语言教育框架。

Jul, 2024