SciEv：科学新闻查找科学证据论文

Apr, 2022

SciEv：科学新闻查找科学证据论文

SciEv: Finding Scientific Evidence Papers for Scientific News

Md Reshad Ul Hoque, Jiang Li, Jian Wu

TL;DRSciEv 是一个系统，可以在给定科学新闻文章的情况下搜索科学证据论文，并采用两阶段查询范式以检索候选论文并进行重新排序，它使用领域知识实体来找到候选论文，证明比常规关键短语更有效，并在重排阶段中探索了新闻文章和候选论文的不同文档表示方法。

Abstract

In the past decade, many scientific news media that report scientific breakthroughs and discoveries emerged, bringing science and technology closer to the general public. However, not all scientific news article

scientific news proper citation scientific evidence domain knowledge entities document representations

发现论文，激发创造

利用引文图谱进行科学信息提取

本文研究了如何利用引文图来提高科学信息提取的准确性，证明结合引文图与文本提取任务能提升科学信息提取的水平。

Jun, 2021

开放领域科学主张验证的知识源对比

本研究通过一系列实验测试了开放领域的声明验证系统的性能，在不同设置下使用三个常见知识来源（PubMed、Wikipedia、Google）和两种不同的信息检索技术，对四个生物医学和健康声明的最终预测进行了测试。结果显示，对于专门的生物医学声明，PubMed 表现更好，而对于日常健康问题，Wikipedia 更适合；而在检索精度方面，BM25 表现出色，而在相关证据的回收方面，语义搜索更具优势。在讨论结果、概述频繁的检索模式和挑战，并提供有前途的未来方向。

Feb, 2024

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

利用 Wikidata 支持的事件知识图谱搜索新闻文章

本文提出一种使用 Wikidata 知识库的方法来产生新闻文章的语义注释，并描述了一种语义搜索引擎，支持基于关键词的搜索和结构化数据搜索。

Apr, 2019

ILCiteR: 拥有证据支持的可解释的本地引用推荐

现有的机器学习方法用于本地引用推荐直接将一个查询映射或翻译为值得引用的研究论文，这会导致有限的推荐可解释性。为了缓解这个问题，我们引入了基于证据的本地引用推荐任务，目标潜藏空间包括用于推荐特定论文的证据跨度。通过远程监督证据检索和多步骤再排序框架，我们的提议系统 ILCiteR 为查询推荐应引用的论文，并基于从现有研究文献中提取的类似证据跨度进行引用。与过去的方法只输出推荐不同，ILCiteR 检索了验证跨度和推荐论文的排序列表。其次，以前提出的引用推荐的神经模型需要在大规模标记数据上进行昂贵的训练，理想情况下是在候选论文池的每次重大更新之后。相反，ILCiteR 仅依靠动态证据数据库的远程监督和预训练的基于 Transformer 的语言模型，而无需任何模型训练。我们为基于证据的本地引用推荐任务贡献了一个新颖的数据集，并展示了我们提出的条件神经网络排序集成方法在重新排序证据跨度上的有效性。

Mar, 2024

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

科学话语标注以实现证据提取

通过从全文中提取文本片段，利用以生物医学为域的语料预训练的深度表征学习探讨科学论述结构的分析和证据片段的提取，以提高科学主张的质量。

Sep, 2019

SemEval 2017 任务 10：ScienceIE - 从科学出版物中提取关键词和关系

本文介绍 SemEval 任务，研究从科学文档中提取关键词语和它们之间的关系，以帮助读者理解哪些文章描述了哪些过程、任务和材料，共有 26 个队伍进行了 3 种评估场景的提交，任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。

Apr, 2017

提供更多细节：利用潜在检索改进事实核查

该研究旨在改善自动事实核查系统，并尝试将原始文档的全文作为证据，并引入了两个丰富的数据集。实验证明，即使没有标注黄金证据句子，包括原始文档在内的证据可以提供足够的上下文线索，该系统能够在不同的设置下显著提高最佳报告模型的精度。

May, 2023

科学论文大型单主题文献库的交互式蒸馏

利用机器学习技术构建针对科学文献的目标数据集工具，并通过主题建模进行文献综述，应用于机器学习领域。

Sep, 2023