Galactica: 科学领域的大型语言模型
通过使用大型语言模型 (LLMs) 进行地球科学的进一步预训练和监督微调,我们得到了一个包含 300 亿参数的地球科学领域最大的语言模型 GeoGalactica,并且在技术报告中详细介绍了它的各个方面,包括数据收集、数据清洗、基础模型选择、预训练、微调和评估。
Dec, 2023
本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互,并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应,结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案,对天文学界提供了潜力巨大的应用前景,特别是猜测生成方面的可能性。
Apr, 2023
本文提出了一种名为 GLaM(通用语言模型)的语言模型,采用稀疏的专家混合体系结构,可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数,性能优于 GPT-3,且训练花费和计算资源开销较小。
Dec, 2021
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过 Alpaca 数据集的 Galician 适应和 LLaMA-7B 的 fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
OceanGPT 是第一个专注于海洋领域的大型语言模型,通过 DoInstruct 框架和 OceanBench 评测系统,在海洋科学任务上展示了更高水平的知识专业性,并在海洋技术中具备初步的具身智能能力。
Oct, 2023
本文研究了使用大型语言模型(LLMs)对话生物医学背景知识以及从大量的科学文献中提取信息的潜力,以抗生素发现为例,系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力,并发现虽然最新模型在流畅度方面得到了改善,但其事实准确性仍然很低,而且模型存在偏向于过度呈现某些实体的问题。
May, 2023
通过系统评估六种主流大型语言模型在九个基准数据集上的文本到 SQL 解析能力,发现这些开源模型在性能上明显不及 GPT-3.5 等闭源模型,强调了填补这些模型之间性能差距的进一步工作的需求。
Oct, 2023
介绍 HyperCLOVA,这是一个针对韩国语料库进行训练的基于 GPT-3 的大规模语言模型,在上下文中的零样本与少样本学习性能上显示出最先进的表现,还介绍了基于提示的学习的性能优化和交互式学习界面,最后给出了三个成功的应用示例。
Sep, 2021
使用大型语言模型进行科学综合、推理和解释,通过从科学文献综合知识,将其应用于预测分子属性等任务,提高了当前机器学习系统的性能,并能解释其预测结果,将加速科学发现的进程。
Oct, 2023