SPECTER: 基于引文信息的 Transformer 文档级表征学习

ACLApr, 2020

SPECTER: 基于引文信息的 Transformer 文档级表征学习

SPECTER: Document-level Representation Learning using Citation-informed Transformers

Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld

TL;DR提出了一种新的方法 SPECTER 来基于引用图预训练 Transformer 语言模型以生成科学文件的文件级嵌入，在包括文献预测、文档分类和推荐等七种文档级任务上优于多种竞争基线。

Abstract

representation learning is a critical ingredient for natural language processing systems. Recent transformer language models like BERT learn powerful textual representations, but these models are targeted towards

representation learning transformer language models specter scientific documents document-level representation

发现论文，激发创造

PaECTER: 利用引文信息的专利层面表示学习

PaECTER 是一个公开可用的、开源的、专门用于专利的文档级编码器。我们使用审查人员添加的引用信息对 BERT 进行微调，以生成专利文档的数值表示。PaECTER 在相似度任务中表现更好，优于专利领域中当前最先进的模型。PaECTER 从专利文本中生成的数值表示可用于分类、知识流程追踪或语义相似性搜索。对于发明家和专利审查员来说，语义相似性搜索在先前技术搜索的背景下尤为重要。PaECTER 在 Hugging Face 上可获得。

Feb, 2024

增强的 BERT 嵌入用于学术出版物分类

本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

May, 2024

通过链接预测的定向标准引用推荐与排名

我们探讨了链接预测作为自动获取与新文档的主题或背景相关的现有文献的代理方法。我们的模型使用基于变压器的图嵌入来编码每个文档的含义，这些文档作为引文网络中的节点呈现。我们展示了我们的模型生成的语义表示在推荐和排名任务中可以胜过其他基于内容的方法。这为在那些需要这些文档正确互相引用以最小化可能出现的不一致性的领域中探索引文图提供了一种整体的方法。

Mar, 2024

跨语言文档表征的映射转换器增强嵌入

使用 Transformer Leveraged Document Representations（TLDRs）在不同语言之间实现文档表示，并通过评估多个预训练的多语言 Transformer 模型确定最佳映射方法，结果显示跨语言表示通过预训练的 Transformer 和映射方法取得了良好的效果，为拓展语言之间的联系提供了有希望的方向。

Jan, 2024

利用多个 CLS 令牌集成编码多领域科学论文

使用多个 CLS 标记对科学文档进行多领域特化，提出 Multi2SPE 方法，并在多领域下的科学论文向量编码中展示 Multi2SPE 在减少错误率上的效果。

Sep, 2023

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式 Transformer 模型上的关键作用。

Feb, 2020

ILCiteR: 拥有证据支持的可解释的本地引用推荐

现有的机器学习方法用于本地引用推荐直接将一个查询映射或翻译为值得引用的研究论文，这会导致有限的推荐可解释性。为了缓解这个问题，我们引入了基于证据的本地引用推荐任务，目标潜藏空间包括用于推荐特定论文的证据跨度。通过远程监督证据检索和多步骤再排序框架，我们的提议系统 ILCiteR 为查询推荐应引用的论文，并基于从现有研究文献中提取的类似证据跨度进行引用。与过去的方法只输出推荐不同，ILCiteR 检索了验证跨度和推荐论文的排序列表。其次，以前提出的引用推荐的神经模型需要在大规模标记数据上进行昂贵的训练，理想情况下是在候选论文池的每次重大更新之后。相反，ILCiteR 仅依靠动态证据数据库的远程监督和预训练的基于 Transformer 的语言模型，而无需任何模型训练。我们为基于证据的本地引用推荐任务贡献了一个新颖的数据集，并展示了我们提出的条件神经网络排序集成方法在重新排序证据跨度上的有效性。

Mar, 2024

科学命名实体识别的分层 Transformer 模型

使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术，无需外部资源或特定数据增强。

Mar, 2022

利用 BERT 进行信息检索：调查、应用、资源和挑战

近年来，深度学习在解决各种自然语言处理问题上得到了大量应用。本文回顾了以 BERT 为代表的预训练模型在信息检索领域的方法，涵盖了长文档处理、语义信息整合、平衡效果与效率、术语权重预测、查询扩展和文档扩展等六个高级类别，并与基于解码器的生成式大型语言模型进行了比较，结果表明在特定任务上，经过调优的 BERT 编码器仍然具有更好的性能和更低的部署成本。最后，总结了调查的全面结果，并提出了未来研究的方向。

Feb, 2024

用于推荐系统的多 BERT 嵌入

我们提出了一种使用 Sentence-BERT（SBERT）和 RoBERTa 两种最先进的自然语言处理模型结合生成文档嵌入的新方法。通过将句子视为标记并为其生成嵌入，我们的方法可以捕捉文档内句子间和句子间的关系，从而生成更具语义丰富性和准确性的文档嵌入。通过对 Goodreads 数据集上的图书推荐任务进行实验，我们评估了我们的模型，并证明了其在生成嵌入方面的有效性。与仅使用 SBERT 生成的文档嵌入相比，我们使用 MULTI-BERT 模型生成的文档嵌入在嵌入质量方面始终表现更好，通过精确度作为评估指标，我们发现我们的模型能够捕捉到更细微的语义关系，从而实现更准确的推荐。总体而言，我们的结果证明了我们的方法的有效性，并表明这是一个改进推荐系统性能的有前途的方向。

Aug, 2023