GECKO: 英文、程式碼和韓文的生成語言模型
我们提出了一种紧凑而多功能的文本嵌入模型 Gecko,其通过利用大语言模型(LLMs)将知识从 LLMs 中提炼到检索器中来实现强大的检索性能。
Mar, 2024
本文介绍 CodeGeeX,一个具有 130 亿参数的多语言预训练代码生成模型。通过 extensive experiments,CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展,CodeGeeX 可以为活跃用户生成 47 亿个 tokens,并帮助 83.4% 的用户提高编码效率。
Mar, 2023
本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集,并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型,同时提供基于数据集调整的基线模型,并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell),展示了数据集的多样性和实用性。
Oct, 2022
Komodo-7B 是一种 70 亿参数的大型语言模型,能无缝运行于印尼、英语和印尼的 11 种地方语言,比 OpenAI 的 GPT-3.5、Cohere 的 Aya-101、Llama-2-Chat-13B、Mixtral-8x7B-Instruct-v0.1、Gemma-7B-it 等模型表现更好,在语言特定和总体评估中都表现出卓越的性能,还能进行英语到 11 种地方语言的直译,对减少印尼的教育差距具有重要意义。
Mar, 2024
提出了一种名为 CooK 的新型框架,通过提供模块化的知识和协同来源的知识,为通用大型语言模型增强知识能力,并通过动态选择、筛选、整合不同领域的参数知识仓库促进多领域知识综合和按需更新,从而获得了在六个基准数据集上的最先进性能。
May, 2023
介绍了 HyperCLOVA X,这是一种针对韩语和文化进行优化的大型语言模型,具有在英语、数学和编码方面的竞争能力。该模型经过平衡的韩语、英语和代码数据训练,并通过高质量的人工标注数据进行指导,遵守严格的安全准则,体现了我们对负责任人工智能的承诺。在韩语和英语中,HyperCLOVA X 在各种基准测试中展现出强大的推理能力,以及对语言和文化细微差异的深刻理解。分析了其固有的双语性质及其在多语言环境下的扩展,突显了该模型的跨语言熟练度和强大的泛化能力,包括多种语言对之间的机器翻译和跨语言推理任务。我们相信,HyperCLOVA X 可以为各区域或国家开发其主权语言模型提供有益的指导。
Apr, 2024
该研究介绍了 DaG LLM(大衛和歌利亚語言模型),这是一种专为韩语设计的语言模型,通过对 13 个不同类别中 41 项任务进行指导调整来进行细调。
Nov, 2023
介绍了 EEVE-Korean-v1.0,这是一个在英语和韩语文本理解方面表现出非凡能力的韩语适应版本的大型语言模型。通过引入一个高效有效的词汇扩展(EEVE)方法,该模型能够显着提升非英语能力。EEVE-Korean-10.8B-v1.0 在 Open Ko-LLM 排行榜上超过了大多数指令调整的 LLMs,并成为 2024 年 1 月开源社区中领先的韩语预训练模型。
Feb, 2024
本文介绍了 Gorilla 模型,该模型通过使用基于 LLaMA 的 finetuned 技术,在写 API 调用方面超越了最先进的 GPT-4 模型。结合文档检索器,Gorilla 展示了对测试时间文档更改的强大适应能力,减少了 LMM 直接提示时出现的幻觉问题,证明了 LLM 使用工具的潜力。
May, 2023
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024