从文本中挖掘计量信息
该研究旨在通过语义信息提取对科学文献中的计量和计数进行分析,并提供数据集以培训模型提取科学文本中的测量信息,并通过五个子任务来构建,并采用多回合问答的方法解决前三个子任务,最终在测试集上获得了 36.91%的重叠 F1 分数。
Apr, 2021
本文提出了一种基于依赖解析和单位字典的数量提取框架,它能够高效地检测数值和单位的组合、数量变化的行为以及数量所关联的概念,并对检测到的数量进行适当的标准化和规范化。使用新颖的数据集进行评估,我们展示了基于开源框架的方法优于其他系统,并且是目前为止首个检测到与已识别的数量相关概念的方法。
May, 2023
大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架,用于评估信息提取的质量和完整性,重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制,并分析了在迭代提取信息时它们的性能。最后,介绍了用于评估提取质量的度量标准,并对如何解释这些度量标准进行了广泛讨论。
Apr, 2024
该研究提出了一种从医学文献中的表格中提取数值和文本信息的方法,包括表格检测、功能处理、结构处理、语义标记、语用处理、单元选择和句法处理等七个步骤,F - 度量值范围在 82% - 92% 之间.
Feb, 2019
本文主要介绍了一种从研究论文全文中提取材料数据以建立数据库的简单方法,该方法基于自然语言处理和大型通用语言模型,无需编程或模型培训等专业知识,可实现高召回率和几乎完美精度。作者还评估了多种语言模型(GPT-3/3.5,bart 和 DeBERTaV3),并在提取体积模量数据方面取得了良好的表现。最后,作者还通过开发金属玻璃的临界冷却速率数据库展示了该方法可以扩展到其他研究领域。
Feb, 2023
本研究提出了一种自动、准确和灵活的算法,能够从数字化科学文章中直接提取各种元数据,包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现,具有较高的精度,适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。
Oct, 2017
手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别(NER);出于这个原因,在公开可用的数据集中,系统的性能通常使用适用于每个数据集的特定指标进行评估。而且,大多数使用的指标对阅读顺序错误非常敏感,因此不能反映系统的预期最终应用,并且在更复杂的文件中引入了偏见。在本文中,我们提出并公开发布了一套针对手写文件中信息提取评估的与阅读顺序无关的度量标准。在实验中,我们对度量标准的行为进行了深入分析,并推荐了我们认为的正确评估任务所需的最小度量标准。
Apr, 2024
本文旨在通过测量数据来量化机器学习数据和数据集的组成部分,以促进机器学习的系统构建和分析,使现代机器学习系统更加准确和可控,同时讨论了未来工作的许多途径、数据测量的局限性,以及如何在研究和实践中利用这些测量方法。
Dec, 2022
在医学领域,我们介绍了一项系统性研究,对医学文本的可读性进行了细致的测量,并提出了一个名为 MedReadMe 的新数据集,其中包括了 4,520 个句子的可读性评级和复杂语言范围的注释。通过我们的优质注释,我们改进了针对医学领域特定的若干最新句子级别的可读性度量方法,其中包括无监督、有监督和基于提示的方法,并发现将专业术语范围数目作为特征加入现有的可读性公式可以显著提高其与人类判断的相关性。我们将公开发布该数据集和代码。
May, 2024
本文提出了一个将文本数据匹配到更高、更有比较性的结果中去的框架,并成功开发出一个预估模型可以精确预估最佳匹配结果的数值,以此提高了在媒体偏见和医学干预研究中使用文本匹配以改进因果推断的准确性。
Jan, 2018