利用多个 CLS 令牌集成编码多领域科学论文

Sep, 2023

利用多个 CLS 令牌集成编码多领域科学论文

Encoding Multi-Domain Scientific Papers by Ensembling Multiple CLS Tokens

Ronald Seoh, Haw-Shiuan Chang, Andrew McCallum

TL;DR使用多个 CLS 标记对科学文档进行多领域特化，提出 Multi2SPE 方法，并在多领域下的科学论文向量编码中展示 Multi2SPE 在减少错误率上的效果。

Abstract

Many useful tasks on scientific documents, such as topic classification and citation prediction, involve corpora that span multiple scientific domains. Typically, such tasks are accomplished by representing the t

scientific documents transformer cls token multi-domain citation prediction

发现论文，激发创造

Multi-CLS BERT：传统集成的高效替代方案

本文提出了 Multi-CLS BERT 方法，它是一种高效的 BERT 模型集成方法，不需要在测试时运行多个 BERT 模型，只需要运行单个 Multi-CLS BERT 模型。在 GLUE 和 SuperGLUE 数据集上，实验证明这种方法能够显著提高准确度和置信度。

Oct, 2022

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

增强的 BERT 嵌入用于学术出版物分类

本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

May, 2024

SPECTER: 基于引文信息的 Transformer 文档级表征学习

提出了一种新的方法 SPECTER 来基于引用图预训练 Transformer 语言模型以生成科学文件的文件级嵌入，在包括文献预测、文档分类和推荐等七种文档级任务上优于多种竞争基线。

Apr, 2020

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

多领域语言模型高效预训练的实证研究

通过在多个领域进行预训练和弹性权重整合，可以提高通用和医学任务的性能。

Oct, 2020

利用基于 Transformer 的集成学习来分类科学论文

本文介绍了一个系统，它包括四个独立子系统，能够将科学文献的摘要分类到给定的七个类别中，通过对这四个子系统的集成，可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统，优于现有的最先进模型 SciBERT 的 F1 分数。

Feb, 2021

使用多义词嵌入提高文档分类

本研究提出 SCDV-MS 方法，结合多义词嵌入及学习降维流形，用于文本表示与分类。实验结果表明，相较于先前方法，SCDV-MS 在多类别和多标签文本分类任务上性能更高，而且在时间及空间复杂度上更高效。

Nov, 2019

最佳多语言文件嵌入是否只是基于句子嵌入？

本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法，证明了对于多语言任务来说，通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元，并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果，但对于语义任务来说需要更复杂的组合。

Apr, 2023

超越一刀切：多领域、多任务的嵌入模型选择框架

提出了一个系统化的方法，以帮助选择最有效的嵌入模型进行自然语言处理（NLP）任务的开发框架，解决了专有和开源编码器模型的泛滥所带来的挑战。

Mar, 2024