OLMo: 加速语言模型的科学

Feb, 2024

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney...

TL;DROLMo 是一种最先进且真正开放的语言模型，其框架用于构建和研究语言建模的科学。通过提供模型权重、推理代码以及训练和评估代码等整个框架，我们希望这一发布能够增强开放研究社区的实力，并激发创新的新浪潮。

Abstract

language models (LMs) have become ubiquitous in both nlp research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind prop

language models nlp research open lms training data science of language modeling

发现论文，激发创造

OpenELM: 一种高效的开源训练和推理框架的语言模型家族

OpenELM 是一种最新的开放语言模型，通过使用层内参数分配策略，在拥有约十亿参数的情况下，在比 OLMo 少两倍的预训练标记情况下，提高了 2.36% 的准确性，进而促进了开放研究社区的发展。

Apr, 2024

ORLM：训练大型语言模型用于优化建模

通过训练开源的大型语言模型（LLMs）来处理自动化优化建模中的数据隐私问题，提出了定制化合成数据的半自动化过程（OR-Instruct），并在实际应用中实现了显著改进的优化建模能力。

May, 2024

LLMs4OL：用于本体学习的大型语言模型

我们提出了 LLMs4OL 方法，利用大型语言模型（LLMs）进行本体学习（OL）。通过全面评估使用零训练样例提示方法，我们发现 LLMs 可以有效地应用其语言模式捕捉能力于 OL，该能力包括从自然语言文本中自动提取和结构化知识。评估涵盖了对三个主要的 OL 任务进行九种不同的 LLM 模型家族的评估，包括术语类型化，分类系统发现以及非分类关系的提取，并包含了 WordNet 中的词汇语义知识，GeoNames 中的地理知识以及 UMLS 中的医学知识等多种类型的本体知识。

Jul, 2023

OLMES：语言模型评估的标准

AI 领域中，评估语言模型的性能往往会因为任务评估方法的微小改变导致结果巨大的变化，由于缺乏共同的标准设置，不同模型在相同任务上的评估方法不同，对模型性能最佳的声称难以重现。本论文提出了 OLMES，一种完全记录且实用的、可以重现 LLM 评估的开放标准。在制定该标准时，我们发现和回顾了由学术界采用的不同评估实践因素，如提示格式、上下文示例选择、概率规范化和任务制定等。特别地，OLMES 支持在较小的基础模型（需要人为制定的多项选择问答）与能够采用原始制定的较大模型之间进行有意义的比较。OLMES 包含了基于现有文献结果和新实验的深思熟虑的建议，对开放问题进行了调查。

Jun, 2024

MAP-Neo：高能透明的双语大型语言模型系列

开源研究中心提供了 MAP-Neo，一个具有可比较性的高性能透明双语语言模型，并公开了所有细节以复现该模型，以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。

May, 2024

H2O 开放生态系统用于最先进的大型语言模型

介绍了一个完整的开源生态系统，用于开发和测试大型语言模型，目标是促进开放式替代闭源方法，通过 h2oGPT 和 H2O LLM Studio 提供基于 Apache 2.0 许可的代码和模型，以便更好地发展和访问 AI。

Oct, 2023

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

OpenLLM-Ro -- 关于从 Llama 2 开始训练的开源罗马尼亚语 LLM 的技术报告

近年来，大型语言模型（LLMs）在各种任务上已经实现了几乎人类水平的表现。尽管一些 LLMs 在多语言数据上进行了训练，但大多数训练数据仍是英文，所以它们在英文上的表现远远超过其他语言。本文介绍了我们对第一个专门用于罗马尼亚语的基础和聊天型 LLMs 进行训练和评估的方法。

May, 2024

评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析，比较评估了语言模型和提示样式，并且展示了这些模型在特定需求下的有效性，以及与 SOTA 语言模型的竞争能力。

Jun, 2024

科学文本处理的预训练语言模型综述

本文对科学文本处理的语言模型（LMs）进行了综合评述，包括对不同领域、任务和数据集上的效果进行了广泛分析，探讨了未来面临的挑战。

Jan, 2024