大语言模型与人工智能技术中的巴尔蒂及跨境姐妹方言的统一
本文探讨了南亚语言技术中的数据散布问题,并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚NLP和历史-比较语言学交叉领域的最新发展,并提出了打破数据壁垒的新策略。
Mar, 2022
本文提出了一种有效追踪和检测人工智能生成上下文的方法,并介绍了一种利用对比特征提取模型特征来追踪文本来源的新算法,该算法可以适用于各种大型语言模型的检测和跟踪,并提供了关于实验结果的有价值观察,如人工智能起源的难度和人工智能起源的相似性,并呼吁对所有大型语言模型提供者的道德问题进行关注。
Apr, 2023
通过引入SUTRA,一种能够理解、推理和生成超过50种语言文本的多语言大型语言模型架构,本文展示了其在多语言任务上超越GPT-3.5和Llama2等现有模型20-30%的结果,并对其未来在多语言人工智能领域的广泛影响进行了探讨。
May, 2024
该综述论文提供了印度语系大型语言模型(LLM)研究方向的全面概述,包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战,如数据有限、缺乏标准化和语言复杂性,旨在为从事NLP领域研究工作的人员提供有价值的资源,并为这些语言的更准确、高效的LLM应用的发展做出贡献。
Jun, 2024
自2022年起,我们一直在探索人工智能(AI)和现代自然语言处理(NLP),如大型语言模型(LLMs),可以用来促进和简化濒危土著语言的使用和记录的应用领域和技术。
Jul, 2024
本研究针对查克马语和孟加拉语之间的文化语言差距,开发了一种机器翻译模型。通过引入包含15,021个平行样本和42,783个单语样本的新数据集,我们的研究首次实现了查克马语言的机器翻译,并在基准测试中取得了最佳BLEU分数。这项工作有望弥补语言资源的不足,促进濒危语言的保护。
Oct, 2024
本研究解决了多语种大型语言模型(MLLMs)实际实施指南缺乏的问题,提供了一个全面的开发和部署框架。通过对Llama2的案例研究,提出了优化多语种能力的策略,并深入分析了实施过程中的技术、语言和文化视角。研究发现88.38%的世界语言被归类为低资源,影响超过十亿使用者,强调了对语言多样性的支持的重要性。
Oct, 2024
本文介绍了一种新的1亿参数的多语言大型模型Xmodel-1.5,该模型在约2万亿个标记上进行了预训练,能在多个语言中表现出色,尤其在泰语、阿拉伯语和法语方面成绩突出,并在中文和英文中亦表现有效。研究团队还发布了一个泰语评估数据集,希望这一工作能推动多语言人工智能研究的进展,并促进不同语言间的理解。
Nov, 2024
本研究解决了孟加拉国方言的识别与多样化孟加拉口音转换为标准正式孟加拉语的需求。通过构建大规模多样化数据集并利用多语言大型语言模型(mLLMs)进行细调,研究展示了将方言诺哈利语转换为标准孟加拉语的有效管道,其中实验结果显示出较高的识别与翻译准确率,对包容性沟通工具的开发具有重要意义。
Nov, 2024