AstroLLaMA: 面向天文学领域的专业基础模型

MMSep, 2023

AstroLLaMA: 面向天文学领域的专业基础模型

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun...

TL;DRAstroLLaMA 是一个从 LLaMA-2 微调而来的 70 亿参数模型，通过使用 arXiv 上的 30 万篇天文学摘要进行微调，优化传统的因果语言建模，在困惑度上比 Llama-2 低 30%。尽管参数数量显著较少，我们的模型生成的文本补全和嵌入提取比当前的基础模型更富有见解和科学相关性。AstroLLaMA 作为一个具有广泛微调潜力的稳健的领域专用模型，其公开发布旨在推动天文学研究，包括自动论文摘要和对话系统开发。

Abstract

large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce →

large language models specialized domains astrollama astronomy abstracts domain-specific model

发现论文，激发创造

AstroLLaMA-Chat：使用对话和多样化数据集扩展 AstroLLaMA

利用紧凑的 7B 参数的 LLaMA-2 模型来提升天文学问题回答的性能，通过有针对性、持续的预训练，在天文学语料库的精心筛选子集中取得了显著的专业主题理解提升，结果表明有限的资源下的持续预训练仍然可以提高模型在专业主题上的性能，该模型已经作为首个针对天文学社区的开源对话式人工智能工具发布，名称为 AstroLLaMA-Chat。

Jan, 2024

天文学研究中大型语言模型评估框架设计

大型语言模型（LLMs）正在改变科学研究的方式。我们提出了一个在天文学领域评估研究者与 LLMs 交互的实验设计，并通过一个 Slack 聊天机器人来回答用户的查询，所用的响应取自 arXiv 上的天文学论文。我们记录并匿名用户的问题和机器人的回答、用户对 LLM 的点赞和点踩、用户对 LLM 的反馈以及与查询的检索文档和相似度分数。我们的数据收集方法将为未来对天文学中的 LLM 工具进行动态评估提供可能。

May, 2024

GeoGalactica：地质科学领域的科学大型语言模型

通过使用大型语言模型 (LLMs) 进行地球科学的进一步预训练和监督微调，我们得到了一个包含 300 亿参数的地球科学领域最大的语言模型 GeoGalactica，并且在技术报告中详细介绍了它的各个方面，包括数据收集、数据清洗、基础模型选择、预训练、微调和评估。

Dec, 2023

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

星际闲聊：使用大型语言模型与天文文献交流

本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应，结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

PLLaMa: 一个用于植物科学的开源大型语言模型

本论文介绍了 PLLaMa，这是一个开源的语言模型，它从 LLaMa-2 演变而来，通过包含超过 150 万篇植物科学论文的全面数据库，大大丰富了 PLLaMa 在植物和农业科学领域的知识和能力。我们的初步测试显示，PLLaMa 在理解与植物科学相关的主题方面得到了显著改善。此外，我们还组建了一个国际专业小组，包括植物科学家、农业工程师和植物育种专家，他们在验证 PLLaMa 对各种学术问题的回答准确性方面起着重要作用，确保其在实际应用中的有效性和可靠性。为了支持进一步的研究和开发，我们将模型的检查点和源代码提供给科研界，可在 https://github.com/Xianjun-Yang/PLLaMa 进行下载。

Jan, 2024

LLaMAntino: LLaMA 2 模型在意大利语文本生成中的有效应用

通过采用开放科学方法，研究探索了各种调整方法，以确保在原始模型数据集中不常见的意大利语适用于许多任务的高质量意大利语生成模型，为意大利语的语言适应策略贡献了 LLaMAntino 意大利语 LLM 家族的创新。

Dec, 2023

LLMSat: 大型基于语言模型的面向目标的自主空间探测智能体

使用大型语言模型作为高级控制系统，在航天器的设计和开发中通过利用语言模型作为推理引擎，评估该架构在实现更高级别航天器自主性方面的效用。

Apr, 2024

利用对抗性提示和大型语言模型在天文学中生成健壮假设

该研究探讨了在天文学中应用大型语言模型（LLMs），尤其是 GPT-4，通过上下文提示，将模型提供给多达 1000 篇来自 NASA 天体物理学数据系统的论文，探索通过将模型浸入特定域的文献中可能提高性能的程度。我们的发现表明，在使用上下文提示时，假设生成可以得到实质性的提升，并且通过对抗性提示进一步强调了这一优势。我们展示了对抗性提示如何使 GPT-4 从庞大的知识库中提取关键细节以产生有意义的假设，这标志着将 LLMs 用于天文学科学研究的创新步骤。

Jun, 2023

SkyMath: 技术报告

通过自我比较微调，SkyMath 增强了 Skywork-13B-Base 的数学推理能力，并在 GSM8K 上胜过了所有已知规模相似的开源模型，创造了新的 SOTA 性能。

Oct, 2023