RedWhale:通过高效持续预训练的改进韩语大语言模型
介绍了韩语自然语言理解评估标准KLUE,涵盖8个韩语自然语言任务。该标准通过从多种资源语料库中构建任务和数据,并注重版权保护和伦理考虑来保证对任何人的无限制性可达。提供了合适的评估方法,预训练语言模型的微调配方以及语言模型KLUE-BERT和KLUE-RoBERTa等预训练语言模型,以帮助重现KLUE上的基线模型并促进未来研究。KLUE 资源还可用于其他语言的创建。
May, 2021
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了KE-PLMs在各种NLU和NLG应用中的超越性能以及KE-PLMs面临的挑战和未来研究方向。
Oct, 2021
通过在HAE-RAE评估中发现,相较于全面的通用模型GPT-3.5,大规模的语言特定模型(LLSMs)在语言特定知识检索方面展现出类似的性能水平,强调了使用同质化语料库来训练专业级语言特定模型的重要性,但较小的LLMs在生成结构化回答时表现出令人困惑的性能下降。
Sep, 2023
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了NIKL-CoLA句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
我们提出了KMMLU,这是一个新的韩语基准,包括来自45个学科的35,030个专家级多项选择题,涵盖人文学科到STEM学科。与之前从现有英语基准翻译而来的韩语基准不同,KMMLU收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。我们测试了26个公开和专有LLM模型,发现有显著的改进空间。最好的公开模型在KMMLU上的准确率为50.54%,远远低于人类平均表现62.6%。该模型主要用于英文和中文训练,而不是韩语。对于韩语,当前的适用LLMs,例如Polyglot-Ko,表现得更差。令人惊讶的是,即使是最强大的专有LLMs,例如GPT-4和HyperCLOVA X,分别只能达到59.95%和53.40%。这表明需要进一步改进韩语LLMs,而KMMLU提供了追踪这一进展的正确工具。我们在Hugging Face Hub上公开了我们的数据集,并将这个基准整合到EleutherAI的语言模型评估工具中。
Feb, 2024
介绍了EEVE-Korean-v1.0,这是一个在英语和韩语文本理解方面表现出非凡能力的韩语适应版本的大型语言模型。通过引入一个高效有效的词汇扩展(EEVE)方法,该模型能够显着提升非英语能力。EEVE-Korean-10.8B-v1.0在Open Ko-LLM排行榜上超过了大多数指令调整的LLMs,并成为2024年1月开源社区中领先的韩语预训练模型。
Feb, 2024
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的Bllossom模型表现出优异的性能。
Mar, 2024
通过评估Large Language Models(LLMs)的现状,我们探讨了LLMs在韩语背景下的语用能力,包括常规的多项选择题和开放式问题的评估,结果显示GPT-4在两种评估设置中表现出色,分别获得81.11和85.69分,HyperCLOVA X也得到了良好的分数,尤其在开放式问题的评估中,获得了81.56分,与GPT-4相比仅相差4.13分,而使用CoT提示的少样本学习策略则引入了对字面解释的偏见,限制了准确的语用推理能力,这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。
Mar, 2024
利用KIT-19数据集训练的韩国预训练大语言模型在性能上显著优于现有韩国大语言模型,并具备潜力从根本上改善韩国大语言模型的性能。
Mar, 2024