南亚的计算历史语言学和语言多样性

Mar, 2022

南亚的计算历史语言学和语言多样性

Computational historical linguistics and language diversity in South Asia

Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala

TL;DR本文探讨了南亚语言技术中的数据散布问题，并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚NLP和历史-比较语言学交叉领域的最新发展，并提出了打破数据壁垒的新策略。

Abstract

South Asia is home to a plethora of languages, many of which severely lack access to new language technologies. This linguistic diversity also results in a research environment conducive to the study of comparative, contact, and historical linguistics -- fields which necessitate the ga

发现论文，激发创造

关于依赖距离、交叉依赖和句法分析的关系。对刘海涛等人提出的“依赖距离：自然语言句法模式的新视角”的评述

Liu et al. (2017) provides a comprehensive report on research of dependency distance in human languages, while also identifying areas where computational linguistics can inform research on this subject, potentially leading to improved understanding of language evolution and effective computer systems.

May, 2017

使用拉丁字母编写的南亚语言处理：Dakshina数据集

该论文介绍了 Dakshina 数据集，包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据，并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。

Jul, 2020

混码语调查：语言技术的语言和社会观点

本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。作者提供代码交换（C-S）的调查，涵盖了语言学文献中的关键问题，并从欧洲和印度等高度多语言区域的文献中着重讨论C-S结构和功能模式的概述。此外，作者还讨论了如何使大规模语言模型失败以代表各种C-S类型，以及如何缺乏跨多语言情况和C-S类型导致缺乏强大的评估基准以及覆盖C-S sociolinguistic方面的端到端系统。

Jan, 2023

引导大型语言模型生成混合文本：以东南亚语言为例

通过零-shot的方法，我们探索使用大型语言模型ChatGPT，用于生成东南亚五种语言（印度尼西亚语、马来语、汉语、塔加洛语、越南语）和混杂语Singlish的混杂数据，结果表明ChatGPT显示了最大的潜力，并且InstructGPT的表现也值得我们关注，但由于单词选择错误而导致语义不准确。由此我们呼吁在类似的低资源NLP情境中谨慎应用类似技术。

Mar, 2023

探索大型语言模型在古典学中的应用

本文提出了四种古希腊语言模型，包括单语和多语版本，使用RoBERTa和T5作为模型类型，基于模型对形态和句法任务进行评估，探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能，并为未来的研究提供了有用的信息。

May, 2023

Jambu南亚语言历史语言数据库

Jambu是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库，它包含来自602个方言的287,000个词元，这些词元分成了23,000个同源集。我们概述了必要的数据处理方法，并针对数据的印度-雅利安子集训练了反射预测的神经模型。我们希望Jambu成为所有历史语言学家和印度学家的宝贵资源，并期待进一步改进和扩展数据库。

Jun, 2023

跨语言和方言中的亲属词汇多样性

通过两个大规模案例研究验证了一种方法，用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域，在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展，并揭示了即使在语言和文化上相近的社区内也存在着多样性的程度。

Aug, 2023

BHASA: 东南亚语言文化综合评估系统

在东南亚语言方面，BHASA提供了一个综合的语言和文化评估套件，其中包括自然语言理解、生成和推理等任务的NLP基准、语言诊断工具包LINDSEA以及文化诊断数据集，初步实验发现GPT-4在东南亚语言方面的语言能力、文化表达和敏感性等方面存在不足，BHASA将在未来继续改进和扩展。

Sep, 2023

PILA：源于供意大利语和拉丁语的历史语言数据集

计算历史语言学试图系统地理解声音变化过程，特别是在没有正式语言记录的时期。为了帮助了解伊特鲁里亚语系的音变，我们引入了Proto-Italic to Latin (PILA) 数据集，其中包含大约3000个来自Proto-Italic和拉丁语的形式对。通过对数据集的详细描述，我们展示了PILA在计算历史语言学任务和增强其他历史语言学数据集方面的价值。

Apr, 2024

揭示多样性：对印度AI研究领域的综述

该综述论文提供了印度语系大型语言模型（LLM）研究方向的全面概述，包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战，如数据有限、缺乏标准化和语言复杂性，旨在为从事NLP领域研究工作的人员提供有价值的资源，并为这些语言的更准确、高效的LLM应用的发展做出贡献。

Jun, 2024