天文学研究中大型语言模型评估框架设计

May, 2024

天文学研究中大型语言模型评估框架设计

Designing an Evaluation Framework for Large Language Models in Astronomy Research

John F. Wu, Alina Hyk, Kiera McCormick, Christine Ye, Simone Astarita...

TL;DR大型语言模型（LLMs）正在改变科学研究的方式。我们提出了一个在天文学领域评估研究者与 LLMs 交互的实验设计，并通过一个 Slack 聊天机器人来回答用户的查询，所用的响应取自 arXiv 上的天文学论文。我们记录并匿名用户的问题和机器人的回答、用户对 LLM 的点赞和点踩、用户对 LLM 的反馈以及与查询的检索文档和相似度分数。我们的数据收集方法将为未来对天文学中的 LLM 工具进行动态评估提供可能。

Abstract

large language models (LLMs) are shifting how scientific research is done. It is imperative to understand how researchers interact with these models and how scientific sub-communities like →

large language models scientific research astronomy evaluation study data collection method

发现论文，激发创造

评估大型语言模型对气候信息的应用

评估大型语言模型对气候变化主题的能力，从科学沟通原则出发，提供一个全面的评估框架，强调 LLM 生成结果的呈现和认识适当性，揭示 LLM 在气候传播领域的潜力和局限性。

Oct, 2023

AstroLLaMA-Chat：使用对话和多样化数据集扩展 AstroLLaMA

利用紧凑的 7B 参数的 LLaMA-2 模型来提升天文学问题回答的性能，通过有针对性、持续的预训练，在天文学语料库的精心筛选子集中取得了显著的专业主题理解提升，结果表明有限的资源下的持续预训练仍然可以提高模型在专业主题上的性能，该模型已经作为首个针对天文学社区的开源对话式人工智能工具发布，名称为 AstroLLaMA-Chat。

Jan, 2024

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于 LLM 的问答系统中检索组件的评估

评估大规模语言模型在问答系统中的检索组件性能的基线方法。

Jun, 2024

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为 LLMs 既是科学进步的福音，也是其边界。

Nov, 2023

RaLLe: 发展和评估检索增强的大型语言模型的框架

R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.

Aug, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

AstroLLaMA: 面向天文学领域的专业基础模型

AstroLLaMA 是一个从 LLaMA-2 微调而来的 70 亿参数模型，通过使用 arXiv 上的 30 万篇天文学摘要进行微调，优化传统的因果语言建模，在困惑度上比 Llama-2 低 30%。尽管参数数量显著较少，我们的模型生成的文本补全和嵌入提取比当前的基础模型更富有见解和科学相关性。AstroLLaMA 作为一个具有广泛微调潜力的稳健的领域专用模型，其公开发布旨在推动天文学研究，包括自动论文摘要和对话系统开发。

Sep, 2023

语言模型是航天器操作员

基于大型语言模型 (LLM) 的代理机制在航天领域中发挥重要作用，首次将 LLM 代理引入航天研究，通过提示工程、少样本提示和微调技术开发了有效的 LLM 代理，并在挑战赛中获得第二名。

Mar, 2024