SciEv:科学新闻查找科学证据论文
本研究通过一系列实验测试了开放领域的声明验证系统的性能,在不同设置下使用三个常见知识来源(PubMed、Wikipedia、Google)和两种不同的信息检索技术,对四个生物医学和健康声明的最终预测进行了测试。结果显示,对于专门的生物医学声明,PubMed 表现更好,而对于日常健康问题,Wikipedia 更适合;而在检索精度方面,BM25 表现出色,而在相关证据的回收方面,语义搜索更具优势。在讨论结果、概述频繁的检索模式和挑战,并提供有前途的未来方向。
Feb, 2024
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
本文提出一种使用 Wikidata 知识库的方法来产生新闻文章的语义注释,并描述了一种语义搜索引擎,支持基于关键词的搜索和结构化数据搜索。
Apr, 2019
现有的机器学习方法用于本地引用推荐直接将一个查询映射或翻译为值得引用的研究论文,这会导致有限的推荐可解释性。为了缓解这个问题,我们引入了基于证据的本地引用推荐任务,目标潜藏空间包括用于推荐特定论文的证据跨度。通过远程监督证据检索和多步骤再排序框架,我们的提议系统 ILCiteR 为查询推荐应引用的论文,并基于从现有研究文献中提取的类似证据跨度进行引用。与过去的方法只输出推荐不同,ILCiteR 检索了验证跨度和推荐论文的排序列表。其次,以前提出的引用推荐的神经模型需要在大规模标记数据上进行昂贵的训练,理想情况下是在候选论文池的每次重大更新之后。相反,ILCiteR 仅依靠动态证据数据库的远程监督和预训练的基于 Transformer 的语言模型,而无需任何模型训练。我们为基于证据的本地引用推荐任务贡献了一个新颖的数据集,并展示了我们提出的条件神经网络排序集成方法在重新排序证据跨度上的有效性。
Mar, 2024
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017
本文介绍 SemEval 任务,研究从科学文档中提取关键词语和它们之间的关系,以帮助读者理解哪些文章描述了哪些过程、任务和材料,共有 26 个队伍进行了 3 种评估场景的提交,任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。
Apr, 2017
该研究旨在改善自动事实核查系统,并尝试将原始文档的全文作为证据,并引入了两个丰富的数据集。实验证明,即使没有标注黄金证据句子,包括原始文档在内的证据可以提供足够的上下文线索,该系统能够在不同的设置下显著提高最佳报告模型的精度。
May, 2023