利用语义文本相似度提升 AstroBERT 模型性能

Nov, 2022

利用语义文本相似度提升 AstroBERT 模型性能

Improving astroBERT using Semantic Textual Similarity

Felix Grezes, Thomas Allen, Sergi Blanco-Cuaresma, Alberto Accomazzi, Michael J. Kurtz...

TL;DRNASA Astrophysics Data System 的研究人员介绍了 astroBERT，这是一个用于天文学论文的机器学习语言模型。他们还展示了 astroBERT 在天体物理学特定任务上如何改进现有的公共语言模型，并详细说明 ADS 计划利用科学论文的独特结构，引用图和引文上下文进一步完善 astroBERT。

Abstract

The nasa astrophysics data system (ADS) is an essential tool for researchers that allows them to explore the astronomy and astrophysics scientific literature, but it has yet to exploit recent advances in natural language processing. At ADASS 2021, we introduced →

nasa astrophysics data system astrobert machine learning natural language processing scientific literature

发现论文，激发创造

天体物理学文献中的实体检测：基于词和基于范围的实体识别方法比较

本研究旨在构建一个可从天体物理学文献中识别命名实体的系统，并比较基于单词标记和基于跨度分类的方法，在验证和测试中最好的提交均进行了评估，得分分别为 0.8307 和 0.7990。

Nov, 2022

探索在天文学科学出版物中使用 ChatGPT 的应用

通过对 ChatGPT 用于学术写作时所使用的词进行提取，以及在 100 万篇天文学文章中搜索这些词，研究评估了这些模型在天文学论文写作中的广泛应用，并提出建议，鼓励组织、出版商和研究人员共同制定伦理和实用指南，以最大程度地发挥这些系统的优势并保持科学严谨。

Jun, 2024

星际闲聊：使用大型语言模型与天文文献交流

本文采用 OpenAI GPT-4 大型语言模型进行天文论文的上下文引导交互，并利用蒸馏技术最优化输入效率。通过 10 个蒸馏文档的多文献语境去探索模型的反应，结果表明 GPT-4 能够提供具有相关研究成果框架背景下的详细答案，对天文学界提供了潜力巨大的应用前景，特别是猜测生成方面的可能性。

Apr, 2023

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019

Astro-NER - 天文学命名实体识别: GPT 是否是良好领域专家标注者？

本研究使用一个经过精调的 LLM 模型的预测结果来辅助非领域专家标注天文学文献中的科学实体，以便揭示这样的协作过程是否能够逼近领域专家的专业知识。研究结果显示领域专家与 LLM 辅助标注者之间有中等程度的一致性，并且领域专家与 LLM 模型预测之间有相对公平的一致性。另外，我们还比较了精调和默认设置的 LLM 模型在这个任务上的表现。同时，我们还引入了一个经领域专家验证的专门的天文科学实体标注方案。我们的方法采用了以学术研究贡献为中心的视角，专注于与研究主题相关的科学实体。我们创建的包含 5000 个标注天文学文章标题的数据集已公开提供。

May, 2024

AstroLLaMA: 面向天文学领域的专业基础模型

AstroLLaMA 是一个从 LLaMA-2 微调而来的 70 亿参数模型，通过使用 arXiv 上的 30 万篇天文学摘要进行微调，优化传统的因果语言建模，在困惑度上比 Llama-2 低 30%。尽管参数数量显著较少，我们的模型生成的文本补全和嵌入提取比当前的基础模型更富有见解和科学相关性。AstroLLaMA 作为一个具有广泛微调潜力的稳健的领域专用模型，其公开发布旨在推动天文学研究，包括自动论文摘要和对话系统开发。

Sep, 2023

在 NASA SciX 中对大型语言模型和向量嵌入进行实验

使用开源大型语言模型，NASA SciX 通过信息检索和数据增强的替代方法提供创新思路，同时尊重数据版权和用户隐私。在提问时，直接使用大型语言模型容易产生错觉。通过使用语义向量和上下文分块设计的提示系统，NASA SciX 的实验表明使用检索增强生成可降低思维错觉并获得更好的回答。但需要进一步探索新的特性和数据增强过程，以利用这项技术并同时尊重项目的高度信任和质量水准。

Dec, 2023

利用对抗性提示和大型语言模型在天文学中生成健壮假设

该研究探讨了在天文学中应用大型语言模型（LLMs），尤其是 GPT-4，通过上下文提示，将模型提供给多达 1000 篇来自 NASA 天体物理学数据系统的论文，探索通过将模型浸入特定域的文献中可能提高性能的程度。我们的发现表明，在使用上下文提示时，假设生成可以得到实质性的提升，并且通过对抗性提示进一步强调了这一优势。我们展示了对抗性提示如何使 GPT-4 从庞大的知识库中提取关键细节以产生有意义的假设，这标志着将 LLMs 用于天文学科学研究的创新步骤。

Jun, 2023

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

UBERT: 用于大规模同义词预测的新型语言模型在 UMLS 元词汇表中的应用

介绍了 UBERT，一种基于 BERT 的语言模型，通过替换原始的下一句预测任务为监督的同义预测任务进行 UMLS 术语的预训练，该模型能有效地在 UMLS Metathesaurus 的构建过程中替代 LexLM 模型，并且对超过 200 种医学基础词汇进行聚类并识别其中的同义词。

Apr, 2022