通过纵向研究了解大型语言模型的发展:来自开放的Ko-LLM排行榜的见解
通过在HAE-RAE评估中发现,相较于全面的通用模型GPT-3.5,大规模的语言特定模型(LLSMs)在语言特定知识检索方面展现出类似的性能水平,强调了使用同质化语料库来训练专业级语言特定模型的重要性,但较小的LLMs在生成结构化回答时表现出令人困惑的性能下降。
Sep, 2023
通过使用教育诊断评估方法,本研究在MoocRadar上进行评估,这是一个基于布鲁姆分类法的人工测试数据集,旨在揭示大型语言模型的知识结构并了解其认知能力的差异模式,从而为研究人员在LLMs的知识方面提供更明确、更有效的发展和利用。
Oct, 2023
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达8个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。
Feb, 2024
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖8个语言类别和32个领域,包括来自444个数据集的统计信息,共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据;旨在为研究人员提供整个LLM文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
通过评估Large Language Models(LLMs)的现状,我们探讨了LLMs在韩语背景下的语用能力,包括常规的多项选择题和开放式问题的评估,结果显示GPT-4在两种评估设置中表现出色,分别获得81.11和85.69分,HyperCLOVA X也得到了良好的分数,尤其在开放式问题的评估中,获得了81.56分,与GPT-4相比仅相差4.13分,而使用CoT提示的少样本学习策略则引入了对字面解释的偏见,限制了准确的语用推理能力,这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。
Mar, 2024
通过应用ANOVA、Tukey HSD测试、GAMM和聚类技术,本研究对LLMs进行了彻底重新审视,针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集,引入了全面的统计方法,为解析LLM性能数据提供了一个强大而透明的方法。与先前的研究结果相反,我们的结果挑战了关于新兴能力以及给定训练类型和架构在LLMs中的影响的假设。本研究对LLM的性能和潜力提供了一个细致入微的视角,通过提供简单可靠的方法来审查和重新评估LLM的性能数据。
Mar, 2024
该论文介绍了Open Ko-LLM排行榜和Ko-H5基准作为在韩语中评估大型语言模型(LLMs)的重要工具。该工具在韩国LLM社区中被广泛接受,并通过引入私有测试集进行数据泄漏分析,证明了私有测试集的好处。此外,论文提出了超越基准测试的需求,并希望通过Open Ko-LLM排行榜为扩大LLM评估,促进更多的语言多样性树立先例。
May, 2024
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证AI研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的AI研究自动化工作提供了有价值的指导。
Jun, 2024
大型语言模型在教育环境中得到越来越广泛的应用,以为学生和教师提供个性化支持。然而,这些模型的整合引起了有关算法偏见的担忧,可能加剧教育不公平问题。本综述从传统机器学习生命周期的角度出发,提供了大型语言模型从初始开发到在教育应用中定制预训练模型的全面生命周期图。文章讨论了在教育背景下可能出现的偏见来源,并解释了为什么传统机器学习中的偏见度量无法迁移到教育中由大型语言模型生成的内容,因为文本是高维的,可能存在多个正确的回答,而定制回答可能是教学上合理而非不公平的。这篇综述旨在阐明大型语言模型应用中的复杂偏见现象,并为其评估提供实际指导,以促进教育公平。
Jun, 2024