- 朝可靠性 Ad-hoc 科学信息提取迈进:基于两组材料数据的案例研究
探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力,评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集,从最初手动提取的文稿中提取所需信息,并利用材料科学家的见解进行详细的手动错误分析,以确定模型在提取所需信息时的 - SciQAG: 自动生成科学问答数据集的框架及细粒度评估
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
- 利用大型语言模型自动从科学文献中提取化学食品安全隐患
该研究通过使用大型语言模型,在科学文献中自动提取化学危害物,以实现食品安全领域的信息提取。最佳提示方法将任务分解为较小的步骤,平均准确率达到 93%,证实了大型语言模型在从科学文献中提取相关危害物方面的价值。
- AceMap: 学术图谱中的知识发现
科学文献的快速增长需要有效管理和提取有价值的见解。AceMap 是为了通过学术图来实现知识发现而设计的学术系统,它提供了高级数据库构建技术、创新的可视化和分析方法以及追踪学术观点演变、生成简洁摘要等先进分析功能。
- 基于检索增强生成的大型语言模型的因果图发现
使用大语言模型从科学文献中提取关联关系,构建高质量的因果图。
- 大型语言模型的数量化知识检索
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影 - Taec:用于小麦育种文献中特征和表型提取及实体链接的手动标注文本数据集
小麦育种中的基因型 - 表型关系研究及命名实体识别的文献挖掘方法。
- 人工智能自动化科学文献系统评价
在近 15 年里,通过调查 AI 技术的应用情况,以帮助研究人员进行系统的科学文献分析,我们揭示了当前支持的任务、应用的算法类型和 34 项研究中提出的可用工具,同时提供了该领域演变的历史视角和人类在越来越自动化的系统性文献回顾过程中发挥的 - PaperQA: 科学研究的增强检索生成代理
使用 PaperQA,通过对科学文献进行信息检索,评估来源和段落的相关性,并利用 RAG 提供答案的方法,超越现有的 LLMs 和 LLM 代理在当前科学问答基准测试上的表现,使得该代理模型能够进行大规模、系统化的科学知识处理。
- 面向科学推理的可控表格到文本生成
我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务,并通过构建一个具有高亮单元格和相应专业知识库的数据集,为这个方向的研究提供了基准,并提出了一种优于竞争方法的新架构。结果显示,大型模型在生成与用户偏好一致的准确内容方 - 基于自适应特征和图神经网络的科学文献语义表示学习
提出了一种基于自适应特征和图神经网络的科学文献语义表示学习方法,通过引入自适应特征方法,综合考虑了科学文献的全局和局部特征,借助图注意机制对具有引文关系的科学文献的特征进行加权求和,进一步表达不同科学文献特征之间的相关性,同时通过无监督图神 - 药物发现知识图谱的自然语言处理:前景与风险
通过自然语言处理从科学文献中挖掘非结构化文本作为知识图谱的数据源,探讨了利用自然语言处理构建和分析知识图谱在药物发现领域的前景和陷阱。
- ICML科学论文大型单主题文献库的交互式蒸馏
利用机器学习技术构建针对科学文献的目标数据集工具,并通过主题建模进行文献综述,应用于机器学习领域。
- 基于自然语言处理的原始研究文章分类之外
本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhou - 基于生成型 AI 的科学文献的极限摘要,提升初级卫生保健工作流程
运用生成型人工智能技术对科学论文的摘要进行总结,以减轻基层医疗人员的认知负担并提高文献阅读效率。研究结果表明,使用生成型人工智能生成的短摘要可显著降低回答与摘要内容相关问题所需时间,但在无完整摘要可用的情况下,提取知识的准确性明显降低,需要 - 科学可控文本生成方法的进展
本文提供了一个新的方案,用于有控制的文本生成。通过描述各种调节策略,作者阐述了七个关键组成部分的控制生成方法。该文的目的是为基于这些组成部分的新体系结构提供理论和定量分析,并将来通过实证研究对它们的优劣进行比较。
- 用人工智能翻译拉丁文
本文介绍了使用人工智能翻译工具 ChatGPT 来翻译早期拉丁科学文献的可行性,并通过基准测试验证 ChatGPT 的良好性能,之后将该工具应用于从 Johann Bernoulli 写给 Euler 的 1739 年信函摘录中验证了该翻译 - ACLDMDD:一个大规模的数据集用于数据集提及检测
该研究介绍了 DMDD 数据集,它是目前用于科学文献数据集命名检测的最大公开语料库。通过对不同检测模型在 DMDD 上的表现进行分析,研究发现了数据集命名检测方面的一些问题,邀请社区使用该数据集开发新的检测模型。
- 语义学者开放数据平台
Semantic Scholar 是一个旨在帮助学者发现和理解科学文献的开放数据平台,通过使用最先进的学术 PDF 内容提取和自动知识图构建技术,结合公共和专有数据源,构建了迄今最大的开放科学文献图,包括 200 多万篇论文,8000 多万 - 查询建议的关键词嵌入
本文提出了两种新颖的模型来进行关键字建议任务,使用 Word2Vec 和 FastText 的架构,通过利用文档中的关键字共现来生成关键字嵌入向量,并采用特殊的负例抽样方法来利用关键字在学术出版物中的出现方式。此外,还提供了基于排名的评估方