大语言模型与人工智能技术中的巴尔蒂及跨境姐妹方言的统一

Nov, 2024

大语言模型与人工智能技术中的巴尔蒂及跨境姐妹方言的统一

Unification of Balti and trans-border sister dialects in the essence of LLMs and AI Technology

Muhammad Sharif, Jiangyan Yi, Muhammad Shoaib

TL;DR本研究针对巴尔蒂语言及其多样方言的统一问题，通过探讨大语言模型和人工智能技术的应用，提出了一种创新的方法来分析和标准化这一濒危语言。研究发现，借助新兴的人工智能技术，可以更有效地理解方言间的共性，缩短因文化差异产生的语言沟壑，从而推动方言的统一和保护。

Abstract

The language called Balti belongs to the Sino-Tibetan, specifically the Tibeto-Burman language family. It is understood with variations, across populations in India, China, Pakistan, Nepal, Tibet, Burma, and Bhutan, influenced by local cultures and producing various dialects. Considering the diverse cultural, socio-political, religious, and geographical impa

发现论文，激发创造

南亚的计算历史语言学和语言多样性

本文探讨了南亚语言技术中的数据散布问题，并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚NLP和历史-比较语言学交叉领域的最新发展，并提出了打破数据壁垒的新策略。

Mar, 2022

LLM的溯源与侦测

本文提出了一种有效追踪和检测人工智能生成上下文的方法，并介绍了一种利用对比特征提取模型特征来追踪文本来源的新算法，该算法可以适用于各种大型语言模型的检测和跟踪，并提供了关于实验结果的有价值观察，如人工智能起源的难度和人工智能起源的相似性，并呼吁对所有大型语言模型提供者的道德问题进行关注。

Apr, 2023

构建数字语言鸿沟的桥梁

AI技术中的语言偏见是研究和开发方法论不公正的结果，我们提出了一项新的倡议，旨在通过技术设计和方法论，与当地社区进行眼球级的合作，减少语言偏见。

Jul, 2023

SUTRA：可扩展的多语言语言模型架构

通过引入SUTRA，一种能够理解、推理和生成超过50种语言文本的多语言大型语言模型架构，本文展示了其在多语言任务上超越GPT-3.5和Llama2等现有模型20-30%的结果，并对其未来在多语言人工智能领域的广泛影响进行了探讨。

May, 2024

揭示多样性：对印度AI研究领域的综述

该综述论文提供了印度语系大型语言模型（LLM）研究方向的全面概述，包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战，如数据有限、缺乏标准化和语言复杂性，旨在为从事NLP领域研究工作的人员提供有价值的资源，并为这些语言的更准确、高效的LLM应用的发展做出贡献。

Jun, 2024

利用人工智能振兴濒危土著语言：技术与经验

自2022年起，我们一直在探索人工智能（AI）和现代自然语言处理（NLP），如大型语言模型（LLMs），可以用来促进和简化濒危土著语言的使用和记录的应用领域和技术。

Jul, 2024

ChakmaNMT：低资源的查克马语言机器翻译

本研究针对查克马语和孟加拉语之间的文化语言差距，开发了一种机器翻译模型。通过引入包含15,021个平行样本和42,783个单语样本的新数据集，我们的研究首次实现了查克马语言的机器翻译，并在基准测试中取得了最佳BLEU分数。这项工作有望弥补语言资源的不足，促进濒危语言的保护。

Oct, 2024

负责任的多语种大型语言模型：发展、应用与社会影响的综述

本研究解决了多语种大型语言模型（MLLMs）实际实施指南缺乏的问题，提供了一个全面的开发和部署框架。通过对Llama2的案例研究，提出了优化多语种能力的策略，并深入分析了实施过程中的技术、语言和文化视角。研究发现88.38%的世界语言被归类为低资源，影响超过十亿使用者，强调了对语言多样性的支持的重要性。

Oct, 2024

Xmodel-1.5：一种1亿参数的多语言大型模型

本文介绍了一种新的1亿参数的多语言大型模型Xmodel-1.5，该模型在约2万亿个标记上进行了预训练，能在多个语言中表现出色，尤其在泰语、阿拉伯语和法语方面成绩突出，并在中文和英文中亦表现有效。研究团队还发布了一个泰语评估数据集，希望这一工作能推动多语言人工智能研究的进展，并促进不同语言间的理解。

Nov, 2024

BanglaDialecto：端到端的人工智能驱动区域语音标准化

本研究解决了孟加拉国方言的识别与多样化孟加拉口音转换为标准正式孟加拉语的需求。通过构建大规模多样化数据集并利用多语言大型语言模型（mLLMs）进行细调，研究展示了将方言诺哈利语转换为标准孟加拉语的有效管道，其中实验结果显示出较高的识别与翻译准确率，对包容性沟通工具的开发具有重要意义。

Nov, 2024