Astro-NER - 天文学命名实体识别: GPT 是否是良好领域专家标注者？

May, 2024

Astro-NER - 天文学命名实体识别: GPT 是否是良好领域专家标注者？

Astro-NER -- Astronomy Named Entity Recognition: Is GPT a Good Domain Expert Annotator?

Julia Evans, Sameer Sadruddin, Jennifer D'Souza

TL;DR本研究使用一个经过精调的 LLM 模型的预测结果来辅助非领域专家标注天文学文献中的科学实体，以便揭示这样的协作过程是否能够逼近领域专家的专业知识。研究结果显示领域专家与 LLM 辅助标注者之间有中等程度的一致性，并且领域专家与 LLM 模型预测之间有相对公平的一致性。另外，我们还比较了精调和默认设置的 LLM 模型在这个任务上的表现。同时，我们还引入了一个经领域专家验证的专门的天文科学实体标注方案。我们的方法采用了以学术研究贡献为中心的视角，专注于与研究主题相关的科学实体。我们创建的包含 5000 个标注天文学文章标题的数据集已公开提供。

Abstract

In this study, we address one of the challenges of developing ner models for scholarly domains, namely the scarcity of suitable labeled data. We experiment with an approach using predictions from a fine-tuned

ner models labeled data llm model astronomy literature scientific entities

发现论文，激发创造

大型语言模型和知识图谱用于天体实体消歧

通过使用大型语言模型 (LLMs) 和知识图谱聚类来提取天文文本中的实体和关系，本研究在黑客马拉松期间进行了一项实验，并演示了一种消歧实体的方法，该实体可在天文领域的各种上下文中出现。通过收集特定实体周围的摘录并利用 GPT-4 语言模型，提取相关实体和关系。然后使用利登算法对这些提取的信息构建知识图谱，并对图谱进行聚类。利登聚类结果被用来识别未知摘录与每个聚类的关联度百分比，从而实现消歧。实验展示了在天文研究中将 LLMs 和知识图谱聚类技术相结合进行信息提取的潜力，结果强调了该方法在识别和消歧实体以及基于关系对它们进行有意义聚类方面的有效性。

Jun, 2024

GPT-NER：基于大型语言模型的命名实体识别

本文介绍了一种基于 GPT 模型的 NER 算法 ——GPT-NER，它通过将序列标注任务转化为生成任务来弥补 LLMs 在 NER 任务上的缺陷，并提出自我验证策略以解决 LLMs 易出现的幻觉问题。实验结果表明，该算法表现与有监督算法相当，在低资源学习中表现显着优于有监督模型，具有实现限制样本 NER 应用的能力。

Apr, 2023

AI 中的 AI：探索 GPT 作为 AI 出版物专家注释工具的实用性

使用 GPT 聊天机器人模型进行有效的提示工程，可以将聊天机器人用作可靠的数据标注工具，从而实现基于人工智能的科学出版物的自动标注，其准确率达到 94%。用 GPT 标注的数据训练的分类器在性能上优于 arXiv 训练的模型，达到 82% 的准确率。

Mar, 2024

利用对抗性提示和大型语言模型在天文学中生成健壮假设

该研究探讨了在天文学中应用大型语言模型（LLMs），尤其是 GPT-4，通过上下文提示，将模型提供给多达 1000 篇来自 NASA 天体物理学数据系统的论文，探索通过将模型浸入特定域的文献中可能提高性能的程度。我们的发现表明，在使用上下文提示时，假设生成可以得到实质性的提升，并且通过对抗性提示进一步强调了这一优势。我们展示了对抗性提示如何使 GPT-4 从庞大的知识库中提取关键细节以产生有意义的假设，这标志着将 LLMs 用于天文学科学研究的创新步骤。

Jun, 2023

天体物理学文献中的实体检测：基于词和基于范围的实体识别方法比较

本研究旨在构建一个可从天体物理学文献中识别命名实体的系统，并比较基于单词标记和基于跨度分类的方法，在验证和测试中最好的提交均进行了评估，得分分别为 0.8307 和 0.7990。

Nov, 2022

星际闲聊：使用大型语言模型与天文文献交流

本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应，结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

探索在天文学科学出版物中使用 ChatGPT 的应用

通过对 ChatGPT 用于学术写作时所使用的词进行提取，以及在 100 万篇天文学文章中搜索这些词，研究评估了这些模型在天文学论文写作中的广泛应用，并提出建议，鼓励组织、出版商和研究人员共同制定伦理和实用指南，以最大程度地发挥这些系统的优势并保持科学严谨。

Jun, 2024

基于对抗训练的 LSTM-CNN 模型用于命名实体识别

本文提出了一个名为 ASTRAL 的 Adversarial Trained LSTM-CNN 模型，通过引入 Gated-CNN 和特定的 Adversarial training 方法，利用 word embedding 提取的信息来改进当前的 Named Entity Recognition（NER）模型结构和训练过程，我们的模型在三个基准测试中，CoNLL-03、OntoNotes 5.0 和 WNUT-17，都取得了最好的结果。

Sep, 2020

跨数据集和语言学习开放式命名实体识别的通用实体分类

通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD，并使用减少冗余的数据修剪策略，在开放领域命名实体识别方面，提高了大型语言模型的泛化性能，优于 GPT-4 和以往的方法。

Jun, 2024

AI 是否能理解宇宙？通过天体物理数据对 GPT 进行精调的测试

通过对天文数据进行微调，GPT 模型证明了其在分类天体物理现象、区分 GRB 类型、估算类星体的红移以及黑洞参数估算方面的能力，标志着大型语言模型在科学研究中的有效性。同时，文章还提出了一种基于数据理解和基础模块建设的方法，为培养和控制比人类更聪明的 AI 提供了思路。

Apr, 2024