May, 2024

天文学研究中大型语言模型评估框架设计

TL;DR大型语言模型(LLMs)正在改变科学研究的方式。我们提出了一个在天文学领域评估研究者与 LLMs 交互的实验设计,并通过一个 Slack 聊天机器人来回答用户的查询,所用的响应取自 arXiv 上的天文学论文。我们记录并匿名用户的问题和机器人的回答、用户对 LLM 的点赞和点踩、用户对 LLM 的反馈以及与查询的检索文档和相似度分数。我们的数据收集方法将为未来对天文学中的 LLM 工具进行动态评估提供可能。