通过附加训练将特定科学知识教授给大型语言模型

Dec, 2023

通过附加训练将特定科学知识教授给大型语言模型

Teaching Specific Scientific Knowledge into Large Language Models through Additional Training

Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae, Teruaki Hayakawa

TL;DR通过额外的训练，我们探索将专门的科学知识嵌入到 Llama 2 Large Language Model（LLM）中。研究结果表明，有效的知识整合需要从多个角度阅读文本，尤其是在指导性格式下。我们利用文本增强来解决专业文本稀缺的问题，包括风格转换和翻译。超参数优化被证明是至关重要的，不同尺寸的模型（7b、13b 和 70b）在额外的训练中表现出合理的结果。通过验证我们的方法，我们构建了一个包含 65,000 篇科学论文的数据集。尽管我们在部分嵌入知识方面取得了成功，但该研究凸显了将专业信息整合到 LLM 中的复杂性和局限性，并提出了进一步改进的领域。

Abstract

Through additional training, we explore embedding specialized scientific knowledge into the Llama 2 Large Language Model (llm). Key findings reveal that effective knowledge integration requires reading texts from

embedding scientific knowledge llm text augmentation hyperparameter optimization

发现论文，激发创造

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为 LLMs 既是科学进步的福音，也是其边界。

Nov, 2023

嵌入式科学领域聊天机器人

本文研究了如何将已有方法与软件工具组合使用以制作出针对某一特定领域的聊天机器人，采用文本嵌入查找来为大型语言模型提供该领域的上下文信息，同样证实了现有的图像嵌入方法可以用于跨出版物进行搜索和检索。

Jun, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型用于科学信息提取的实证研究：以病毒学为例

本文介绍了一种基于语义内容表示的学术交流结构化方法，利用 LMMs 的文本生成能力，提供了结构化学术贡献摘要的自动化方法，并在信息提取方面展示了竞争力。

Jan, 2024

科学大型语言模型及其在科学发现中的应用综述

该研究对 250 个科学领域的大型语言模型进行了全面调研，揭示了它们在架构和预训练技术上的交叉领域和跨模态连接，并总结了每个领域和模态的预训练数据集和评估任务。此外，还研究了大型语言模型在科学发现中的应用。

Jun, 2024

大型语言模型的出现如何影响科学实践？

大型语言模型越来越多地被纳入科学工作流程中，但我们还没有完全掌握这种整合的影响。大型语言模型的出现应该如何影响科学实践？本观点文章邀请了四组不同的科学家来思考这个问题，分享他们的观点并进行辩论。

Dec, 2023

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

LLM2KB：利用调整指导上下文感知的大型语言模型构建知识库

使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型，通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体，并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。

Aug, 2023

大型語言模型增強的知識表示學習：一項調查

大语言模型（LLMs）与知识表示学习（KRL）的整合标志着人工智能领域的重要进展，增强了捕捉和利用复杂知识结构的能力，这种协同作用利用了 LLMs 的高级语言和语境理解能力，提高了 KRL 的准确性、适应性和有效性，从而扩大了其应用和潜力。尽管越来越多的研究关注将 LLMs 嵌入知识表示领域，但对这些增强模型的基本组件和过程的全面回顾明显缺失。我们的调查通过对这些模型进行基于三种不同 Transformer 架构的分类，并分析来自各种 KRL 下游任务的实验数据，评估每种方法的优点和缺点。最后，我们确定并探索这个新兴但未充分开发的领域的潜在未来研究方向，提出了持续进展的路径。

Jul, 2024