GECKO: 英文、程式碼和韓文的生成語言模型

May, 2024

GECKO: 英文、程式碼和韓文的生成語言模型

GECKO: Generative Language Model for English, Code and Korean

Sungwoo Oh, Donggyu Kim

TL;DRGECKO 是一种针对韩语和英语以及编程语言进行优化的双语大型语言模型 (LLM)，通过 LLaMA 架构在平衡、高质量的韩语和英语语料库上进行预训练。该模型在韩语和英语的令牌生成效率上表现出色，尽管其词汇量较小。希望此研究能为韩语 LLM 研究提供一个基准和实际见解。

Abstract

We introduce gecko, a bilingual large language model (LLM) optimized for korean and english, along with programming languages.

gecko bilingual large language model korean and english llm research data pipeline

发现论文，激发创造

Gecko：从大型语言模型中提取的多功能文本嵌入

我们提出了一种紧凑而多功能的文本嵌入模型 Gecko，其通过利用大语言模型（LLMs）将知识从 LLMs 中提炼到检索器中来实现强大的检索性能。

Mar, 2024

CodeGeeX: 一个基于预训练的多语言代码生成模型及其在 HumanEval-X 上的评价

本文介绍 CodeGeeX，一个具有 130 亿参数的多语言预训练代码生成模型。通过 extensive experiments，CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展，CodeGeeX 可以为活跃用户生成 47 亿个 tokens，并帮助 83.4％的用户提高编码效率。

Mar, 2023

朝向标准化韩语语法错误修正：数据集和标注

本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集，并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型，同时提供基于数据集调整的基线模型，并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell)，展示了数据集的多样性和实用性。

Oct, 2022

科莫多：探索印度尼西亚地区语言的语言考察

Komodo-7B 是一种 70 亿参数的大型语言模型，能无缝运行于印尼、英语和印尼的 11 种地方语言，比 OpenAI 的 GPT-3.5、Cohere 的 Aya-101、Llama-2-Chat-13B、Mixtral-8x7B-Instruct-v0.1、Gemma-7B-it 等模型表现更好，在语言特定和总体评估中都表现出卓越的性能，还能进行英语到 11 种地方语言的直译，对减少印尼的教育差距具有重要意义。

Mar, 2024

CooK：用模块化与协同知识赋能通用语言模型

提出了一种名为 CooK 的新型框架，通过提供模块化的知识和协同来源的知识，为通用大型语言模型增强知识能力，并通过动态选择、筛选、整合不同领域的参数知识仓库促进多领域知识综合和按需更新，从而获得了在六个基准数据集上的最先进性能。

May, 2023

HyperCLOVA X 技术报告

介绍了 HyperCLOVA X，这是一种针对韩语和文化进行优化的大型语言模型，具有在英语、数学和编码方面的竞争能力。该模型经过平衡的韩语、英语和代码数据训练，并通过高质量的人工标注数据进行指导，遵守严格的安全准则，体现了我们对负责任人工智能的承诺。在韩语和英语中，HyperCLOVA X 在各种基准测试中展现出强大的推理能力，以及对语言和文化细微差异的深刻理解。分析了其固有的双语性质及其在多语言环境下的扩展，突显了该模型的跨语言熟练度和强大的泛化能力，包括多种语言对之间的机器翻译和跨语言推理任务。我们相信，HyperCLOVA X 可以为各区域或国家开发其主权语言模型提供有益的指导。

Apr, 2024

DaG LLM ver 1.0：针对韩国自然语言处理的先驱指导调优语言建模

该研究介绍了 DaG LLM（大衛和歌利亚語言模型），这是一种专为韩语设计的语言模型，通过对 13 个不同类别中 41 项任务进行指导调整来进行细调。

Nov, 2023

多语言大型语言模型的高效有效词汇扩展

介绍了 EEVE-Korean-v1.0，这是一个在英语和韩语文本理解方面表现出非凡能力的韩语适应版本的大型语言模型。通过引入一个高效有效的词汇扩展（EEVE）方法，该模型能够显着提升非英语能力。EEVE-Korean-10.8B-v1.0 在 Open Ko-LLM 排行榜上超过了大多数指令调整的 LLMs，并成为 2024 年 1 月开源社区中领先的韩语预训练模型。

Feb, 2024

巨猩：与大规模 API 连接的大型语言模型

本文介绍了 Gorilla 模型，该模型通过使用基于 LLaMA 的 finetuned 技术，在写 API 调用方面超越了最先进的 GPT-4 模型。结合文档检索器，Gorilla 展示了对测试时间文档更改的强大适应能力，减少了 LMM 直接提示时出现的幻觉问题，证明了 LLM 使用工具的潜力。

May, 2023

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024