Galactica: 科学领域的大型语言模型

Nov, 2022

Galactica: 科学领域的大型语言模型

Galactica: A Large Language Model for Science

Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn...

TL;DR该论文介绍了 Galactica: 一个可以存储、组合和推理科学知识的大型语言模型。通过在大量科学文章、参考资料、知识库和其他来源上的模型训练，我们在多个科学任务上超越了现有模型。这表明了语言模型作为科学新接口的潜力。

Abstract

information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through →

scientific knowledge galactica language model information overload search engines

发现论文，激发创造

GeoGalactica：地质科学领域的科学大型语言模型

通过使用大型语言模型 (LLMs) 进行地球科学的进一步预训练和监督微调，我们得到了一个包含 300 亿参数的地球科学领域最大的语言模型 GeoGalactica，并且在技术报告中详细介绍了它的各个方面，包括数据收集、数据清洗、基础模型选择、预训练、微调和评估。

Dec, 2023

星际闲聊：使用大型语言模型与天文文献交流

本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应，结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021

用于加利西亚语的开放式生成大型语言模型

这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Jun, 2024

加利西亚语言中的对话：一种针对少数语言的大型语言模型

该研究介绍了两种新的资源来增强加利西亚语的自然语言处理，通过 Alpaca 数据集的 Galician 适应和 LLaMA-7B 的 fine-tune，为低资源语言提供了多语言模型的研究，并探索了在资源有限的情况下，如何利用相关语言（例如葡萄牙语）来生成连贯的文本。

Nov, 2023

OceanGPT：用于海洋科学任务的大型语言模型

OceanGPT 是第一个专注于海洋领域的大型语言模型，通过 DoInstruct 框架和 OceanBench 评测系统，在海洋科学任务上展示了更高水平的知识专业性，并在海洋技术中具备初步的具身智能能力。

Oct, 2023

大规模语言模型、科学知识与真实性：一项抗生素发现的系统分析

本文研究了使用大型语言模型（LLMs）对话生物医学背景知识以及从大量的科学文献中提取信息的潜力，以抗生素发现为例，系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力，并发现虽然最新模型在流畅度方面得到了改善，但其事实准确性仍然很低，而且模型存在偏向于过度呈现某些实体的问题。

May, 2023

大型语言模型之战: Dolly 对 LLaMA 对 Vicuna 对 Guanaco 对 Bard 对 ChatGPT -- 文本到 SQL 解析比较

通过系统评估六种主流大型语言模型在九个基准数据集上的文本到 SQL 解析能力，发现这些开源模型在性能上明显不及 GPT-3.5 等闭源模型，强调了填补这些模型之间性能差距的进一步工作的需求。

Oct, 2023

大规模语言模型能带来哪些变革？对亿级韩语生成预训练变压器 HyperCLOVA 的深入研究

介绍 HyperCLOVA，这是一个针对韩国语料库进行训练的基于 GPT-3 的大规模语言模型，在上下文中的零样本与少样本学习性能上显示出最先进的表现，还介绍了基于提示的学习的性能优化和交互式学习界面，最后给出了三个成功的应用示例。

Sep, 2021

用于科学综合、推理和解释的大型语言模型

使用大型语言模型进行科学综合、推理和解释，通过从科学文献综合知识，将其应用于预测分子属性等任务，提高了当前机器学习系统的性能，并能解释其预测结果，将加速科学发现的进程。

Oct, 2023