MIReAD: 从科学文档中学习高质量表示的简单方法

ACLMay, 2023

MIReAD: 从科学文档中学习高质量表示的简单方法

MIReAD: Simple Method for Learning High-quality Representations from Scientific Documents

Anastasia Razdaibiedina, Alexander Brechalov

TL;DRMIReAD 是一种基于 fine-tuning 的简单方法，通过提取论文摘要的特征来学习高质量的科学论文表示，实验显示它在科学文档表示学习的四个评估标准上胜过六个现有模型，可用于相似论文检索、主题分类和文献搜索。

Abstract

Learning semantically meaningful representations from scientific documents can facilitate academic literature search and improve performance of recommendation systems. Pre-trained language models have been shown to learn rich textual representations, yet they cannot provide powerful document-level representations for scientific articles. We propose

representation learning scientific papers miread transformer model pubmed

发现论文，激发创造

NewsEmbed: 预训练文档表示模型对新闻进行建模

本文提出了一个新颖的方法，使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签，并设计了一个多任务模型 - NewsEmbed，交替使用对比学习和多标签分类来推导通用文档编码器，在多个自然语言理解任务中实现了出色的性能表现。

Jun, 2021

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

利用基于 BERT 的模型推动跨学科研究：通过 SciBERT-CNN 与主题建模的方法

该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法，通过处理摘要、正文、标题和关键词等多个部分，以解决多标签文本分类中的语义关系和类别不平衡问题，并在文献综述效率方面取得显著改进。

Apr, 2024

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

用于科学文献理解的预训练多任务对比学习模型

本文提出了一种多任务对比学习框架（SciMult），采用任务感知分化技术和指令调整技术，在多种科学文献的理解任务中优于现有科学语言模型。

May, 2023

利用基于 Transformer 的集成学习来分类科学论文

本文介绍了一个系统，它包括四个独立子系统，能够将科学文献的摘要分类到给定的七个类别中，通过对这四个子系统的集成，可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统，优于现有的最先进模型 SciBERT 的 F1 分数。

Feb, 2021

生物医学信息检索中文本相关性的快速深度学习模型

通过深度学习模型计算关键词和生物医学文献之间的相似度得出相关度评分，以此来解决生物医学文献检索中的关联问题，并成功的胜过了其他最先进的深度学习方法。

Feb, 2018

DOCENT：从大型文档集合中学习自监督实体表示

本文探讨了从大量相关文本中学习丰富的无监督实体表示。采用我们提出的训练策略，在多项与实体相关的任务中实现了良好的表现，如排序检索、知识库补全、问题回答等，并且无需人类监督。

Feb, 2021

基于多模态多任务学习的文档表示学习预训练框架

本文提出了基于多任务学习和预训练技术的框架，利用文本、版面和图像的多模态信息学习通用文档表示，以支持多种下游文档任务，并在标准文档数据集上进行了广泛实验。

Sep, 2020

化学数据库和摘要练习的自动反馈生成

使用 BERT 神经网络变换器模型对摘要练习中的学生答案的结构进行反馈，学生在这种练习中更关注文章的背景，而非处理技术和结果。

May, 2023