从科学文献中发现定义和方法的模式
本研究提出了一种自动、准确和灵活的算法,能够从数字化科学文章中直接提取各种元数据,包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现,具有较高的精度,适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。
Oct, 2017
该研究提出了一种通过模板句子和训练数据中的变量定义对生成新的定义句子的新方法,用于从科技论文中提取变量定义,并通过在化学过程领域的论文上的测试表明,采用该方法生成的定义句子训练的模型达到了 89.6% 的更高准确率,超过了现有模型。
May, 2024
本文提出了一种基于无监督方法的科学文献概念提取方法,通过挖掘后续论文中引用某篇文章的数量,提高了从计算机科学论文语料库中提取概念的精确度,Precision@1000 为 99%。
Jun, 2020
本文研究了两种无监督上义词检测方法:基于模式和基于分布的方法。在多个上位词任务上,实验发现基于模式的方法在常见基准数据集上始终优于基于分布的方法。结果表明,基于模式的模型提供了尚未在基于分布的方法中捕获的重要语境约束。
Jun, 2018
使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成,利用引文生成摘要,通过 C-LexRank 对单篇文章进行摘要提取,同时拓展到一系列科学文献的摘要提取和分析,证明引文是创建摘要的一种独特信息资源。
Feb, 2014
使用基于规则的方法,从计算语言学(CL)学术文章标题中自动获取突出的科学实体,从而提高实体检索的精确性和召回率。在所有 ACL Anthology 文章标题的基础上,总计提取了 19,799 个研究问题,18,111 个解决方案,20,033 个资源,1,059 种语言,6,878 个工具和 21,687 种方法,并达到了 75% 的平均精确度。
Sep, 2021
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的结果。
Jun, 2017
本文介绍了通过自然语言文本解释两个科技文档之间关系的任务,提出了一个新的数据集和模型,探索使用科学信息提取系统的密集表示对提高解释性能的影响,并在自动和人类评估中证明了该模型的可行性和挑战。
Feb, 2020
本文首次给出了代码概括模型所发现的模式的形式化定义,并提出了一种推断正则语言文法的声学算法。 PATIC 对代码 2vec 和代码 2seq 进行了评估并发现提取出的模式受限于局部和语法代码结构并缺乏语义含义。基于这些发现,本文介绍了正式定义模式的两个新方法:评估健壮性和提高代码概括模型的准确性。
Mar, 2023