台风：泰国大型语言模型

Dec, 2023

Typhoon: Thai Large Language Models

Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul, Sittipong Sripaisarnmongkol, Ruangsak Patomwong...

TL;DR泰国的 Typhoon 超大语言模型是为泰语开发的，本技术报告介绍了开发泰语 LLMs 的挑战和见解，包括数据准备、预训练、指令调整和评估。

Abstract

typhoon is a series of Thai large language models (LLMs) developed specifically for the Thai language. This technical report presents challenges and insights in developing Thai LLMs, including data preparation, <

typhoon thai language models data preparation pretraining instruction-tuning

发现论文，激发创造

台风：面向预训练语言模型的有效任务特定遮盖策略

本文探索了一种任务特定的掩蔽框架，用于预先训练的大型语言模型，在 GLUE 基准测试的数据集上实现了卓越的性能，我们基于令牌输入梯度开发了我们自己的掩码算法 Typhoon，并将其与其他标准基线进行了比较。我们发现 Typhoon 在 MRPC 数据集上的表现与整词掩蔽相当。

Mar, 2023

WangchanBERTa：基于 Transformer 的泰语语言模型的预训练

在泰语这种资源相对较少的语言中，我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练，并研究了不同的标记化方式对下游性能的影响，在人工注释的单语境中，我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。

Jan, 2021

SeaLLMs — 东南亚大型语言模型

通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法，我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs，以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估，我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能，并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型，并且在轻便且经济高效的操作中仍然表现出色。

Dec, 2023

电信语言模型：是否必须大规模？

该论文评估了 Phi-2 模型在电信领域的的内在理解能力，并通过检索增强生成方法，将电信标准规范知识库与其整合，提高了其在准确度方面的性能。Phi-2 模型在回答与电信标准相关的问题上表现出与资源密集型 GPT-3.5 相当的准确度，同时探索了 Phi-2 在电信领域解决问题的能力和局限性。

Mar, 2024

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

TigerBot：一个开放的多语言多任务 LLM

TigerBot 系列的大型语言模型通过在数据、训练算法、基础设施和应用工具方面的进一步发展，实现了有意义的性能提升，成为领先的学术和工业基准模型，并以开放源代码的方式向社区发布模型，以实现 LLM 领域中的实际应用。

Dec, 2023

数字台风：热带气旋时空建模的长期卫星影像数据集

此论文介绍了数字台风数据集的官方发布，这是一个超过 40 年的最长台风卫星影像数据集，旨在为长期时空数据的机器学习模型提供基准。

Nov, 2023

华南亚地区的大型多语言语言模型：指南

當應用於資源有限的東南亞語言時，大型語言模型的效果明顯下降。為此，我們引入了 CompassLLM，一個專門針對東南亞語言的大型多語言模型，旨在支持 Shopee 的開發需求。我們的方法包括多個關鍵策略，逐步增強多語言能力，並進行低資源語言的訓練，同時整合了課程學習和監督指導微調，以獲得更好的人類指導行為相符的模型，並在自動和人工評估中顯示出優越性能，尤其在東南亞語言中，如印尼語。

Apr, 2024

Pythia：用于分析大规模语言模型在训练和扩展方面的工具集

介绍了 16 个大小从 70M 到 12B 参数的大型语言模型套件 Pythia，旨在促进在语言模型和训练动态中的研究，包括记忆化、少样本性能的术语频率效应和减少性别偏见等方面的结果。

Apr, 2023

基于预训练大型语言模型的乌尔都自然语言处理任务潜力评估

利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析，结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外，研究还发现，基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。

May, 2024