台风:泰国大型语言模型
本文探索了一种任务特定的掩蔽框架,用于预先训练的大型语言模型,在 GLUE 基准测试的数据集上实现了卓越的性能,我们基于令牌输入梯度开发了我们自己的掩码算法 Typhoon,并将其与其他标准基线进行了比较。我们发现 Typhoon 在 MRPC 数据集上的表现与整词掩蔽相当。
Mar, 2023
在泰语这种资源相对较少的语言中,我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练,并研究了不同的标记化方式对下游性能的影响,在人工注释的单语境中,我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。
Jan, 2021
通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法,我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs,以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估,我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能,并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型,并且在轻便且经济高效的操作中仍然表现出色。
Dec, 2023
该论文评估了 Phi-2 模型在电信领域的的内在理解能力,并通过检索增强生成方法,将电信标准规范知识库与其整合,提高了其在准确度方面的性能。Phi-2 模型在回答与电信标准相关的问题上表现出与资源密集型 GPT-3.5 相当的准确度,同时探索了 Phi-2 在电信领域解决问题的能力和局限性。
Mar, 2024
通过精心策划的数据预训练,使用新颖的数据混合集,我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现,并打破了已知基础模型的记录,同时还展现了前所未有的准确预测下游评估基准的能力。
Sep, 2023
TigerBot 系列的大型语言模型通过在数据、训练算法、基础设施和应用工具方面的进一步发展,实现了有意义的性能提升,成为领先的学术和工业基准模型,并以开放源代码的方式向社区发布模型,以实现 LLM 领域中的实际应用。
Dec, 2023
當應用於資源有限的東南亞語言時,大型語言模型的效果明顯下降。為此,我們引入了 CompassLLM,一個專門針對東南亞語言的大型多語言模型,旨在支持 Shopee 的開發需求。我們的方法包括多個關鍵策略,逐步增強多語言能力,並進行低資源語言的訓練,同時整合了課程學習和監督指導微調,以獲得更好的人類指導行為相符的模型,並在自動和人工評估中顯示出優越性能,尤其在東南亞語言中,如印尼語。
Apr, 2024
介绍了 16 个大小从 70M 到 12B 参数的大型语言模型套件 Pythia,旨在促进在语言模型和训练动态中的研究,包括记忆化、少样本性能的术语频率效应和减少性别偏见等方面的结果。
Apr, 2023
利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析,结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外,研究还发现,基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。
May, 2024