南亚的计算历史语言学和语言多样性
Liu et al. (2017) provides a comprehensive report on research of dependency distance in human languages, while also identifying areas where computational linguistics can inform research on this subject, potentially leading to improved understanding of language evolution and effective computer systems.
May, 2017
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
Jul, 2020
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论C-S结构和功能模式的概述。 此外,作者还讨论了如何使大规模语言模型失败以代表各种C-S类型,以及如何缺乏跨多语言情况和C-S类型导致缺乏强大的评估基准以及覆盖C-S sociolinguistic方面的端到端系统。
Jan, 2023
通过零-shot的方法,我们探索使用大型语言模型ChatGPT,用于生成东南亚五种语言(印度尼西亚语、马来语、汉语、塔加洛语、越南语)和混杂语Singlish的混杂数据,结果表明ChatGPT显示了最大的潜力,并且InstructGPT的表现也值得我们关注,但由于单词选择错误而导致语义不准确。由此我们呼吁在类似的低资源NLP情境中谨慎应用类似技术。
Mar, 2023
本文提出了四种古希腊语言模型,包括单语和多语版本,使用RoBERTa和T5作为模型类型,基于模型对形态和句法任务进行评估,探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能,并为未来的研究提供了有用的信息。
May, 2023
Jambu是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库,它包含来自602个方言的287,000个词元,这些词元分成了23,000个同源集。我们概述了必要的数据处理方法,并针对数据的印度-雅利安子集训练了反射预测的神经模型。我们希望Jambu成为所有历史语言学家和印度学家的宝贵资源,并期待进一步改进和扩展数据库。
Jun, 2023
通过两个大规模案例研究验证了一种方法,用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域,在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展,并揭示了即使在语言和文化上相近的社区内也存在着多样性的程度。
Aug, 2023
在东南亚语言方面,BHASA提供了一个综合的语言和文化评估套件,其中包括自然语言理解、生成和推理等任务的NLP基准、语言诊断工具包LINDSEA以及文化诊断数据集,初步实验发现GPT-4在东南亚语言方面的语言能力、文化表达和敏感性等方面存在不足,BHASA将在未来继续改进和扩展。
Sep, 2023
计算历史语言学试图系统地理解声音变化过程,特别是在没有正式语言记录的时期。为了帮助了解伊特鲁里亚语系的音变,我们引入了Proto-Italic to Latin (PILA) 数据集,其中包含大约3000个来自Proto-Italic和拉丁语的形式对。通过对数据集的详细描述,我们展示了PILA在计算历史语言学任务和增强其他历史语言学数据集方面的价值。
Apr, 2024
该综述论文提供了印度语系大型语言模型(LLM)研究方向的全面概述,包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战,如数据有限、缺乏标准化和语言复杂性,旨在为从事NLP领域研究工作的人员提供有价值的资源,并为这些语言的更准确、高效的LLM应用的发展做出贡献。
Jun, 2024