MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

Nov, 2023

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe...

TL;DR通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Abstract

Recently, there has been a rapid advancement in research on large language models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in llm

发现论文，激发创造

大型语言模型在非洲语言上的表现如何?

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2和GPT-4）在30种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现mT0在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的mT5）和GPT-4的表现。总体而言，由于LLaMa 2具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的LLM系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

tinyBenchmarks: 用较少的样例评估LLM

通过研究LLM在各种关键基准测试中的表现，我们探索了减少LLM性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

大型语言模型在多种语言上的多语言性能量化

评估低资源语言对大型语言模型（LLMs）性能的 Language Ranker 研究发现：不同语言上的LLMs性能排名大致相同，不同规模的LLMs具有相同的性能排序，LlaMa2在不同语言中的性能与预训练语料库的比例具有强相关性。

Apr, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器-解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Jul, 2024

近期大型语言模型在低资源语言中的表现

本研究聚焦于大型语言模型在低资源语言（如僧伽罗语）中的表现，填补了此领域的研究空白。通过评估四种最新的语言模型，发现Claude和GPT 4o在直接处理僧伽罗语及其英译方面表现优异，显著优于前版本，而Llama和Mistral虽表现不佳，但在微调后具有改进潜力。该研究为低资源语言处理提供了新的见解和实用模型选择。

Jul, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

大型语言模型的峰值性能实现：系统评审

本研究解决了大型语言模型（LLM）在性能优化和资源消耗方面的挑战。通过系统文献综述，提出了多种方法来加快LLM的训练和推理，同时保持准确性。研究表明，可以在不损失性能的情况下，显著降低计算和内存成本，推动LLM的广泛应用。

Sep, 2024