关于欧洲语言的大型语言模型调查
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
Jul, 2023
该研究聚焦于用于芬兰语的大型语言模型(LLMs)的创建和评估,通过从各种来源收集数据并进行预训练,综合其他语言模型的方法,在芬兰语领域取得了显著进展,并对模型的质量进行了评估,包括毒性和偏见。
Nov, 2023
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个GitHub存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
对大型语言模型(LLMs)进行了综述,包括三个流行的LLM系列(GPT,LLaMA,PaLM)的特点、贡献和局限性,同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标,最后讨论了未来的挑战和研究方向。
Feb, 2024
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖8个语言类别和32个领域,包括来自444个数据集的统计信息,共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据;旨在为研究人员提供整个LLM文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器-解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。
Jul, 2024
本研究聚焦于大型语言模型在低资源语言(如僧伽罗语)中的表现,填补了此领域的研究空白。通过评估四种最新的语言模型,发现Claude和GPT 4o在直接处理僧伽罗语及其英译方面表现优异,显著优于前版本,而Llama和Mistral虽表现不佳,但在微调后具有改进潜力。该研究为低资源语言处理提供了新的见解和实用模型选择。
Jul, 2024
本研究解决了大型语言模型(LLM)在欧洲官方语言处理中的差距,提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是,为欧洲语言定制的LLM具有显著的性能提升潜力,从而推动相关语言处理任务的进展。
Aug, 2024