MIReAD: 从科学文档中学习高质量表示的简单方法
本文提出了一个新颖的方法,使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签,并设计了一个多任务模型 - NewsEmbed,交替使用对比学习和多标签分类来推导通用文档编码器,在多个自然语言理解任务中实现了出色的性能表现。
Jun, 2021
该论文介绍了一种使用 SciBERT 模型和 CNN 的新方法,通过处理摘要、正文、标题和关键词等多个部分,以解决多标签文本分类中的语义关系和类别不平衡问题,并在文献综述效率方面取得显著改进。
Apr, 2024
本研究提出了一种针对未知类别的科学文献的文本分类的新方法,使用自然语言处理技术。该研究利用预训练的语言模型(特别是 SciBERT)从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行,并根据 Silhouette 得分确定最佳聚类数。结果表明,所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息,从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。
Sep, 2023
本文介绍了一个系统,它包括四个独立子系统,能够将科学文献的摘要分类到给定的七个类别中,通过对这四个子系统的集成,可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统,优于现有的最先进模型 SciBERT 的 F1 分数。
Feb, 2021
通过深度学习模型计算关键词和生物医学文献之间的相似度得出相关度评分,以此来解决生物医学文献检索中的关联问题,并成功的胜过了其他最先进的深度学习方法。
Feb, 2018
本文探讨了从大量相关文本中学习丰富的无监督实体表示。采用我们提出的训练策略,在多项与实体相关的任务中实现了良好的表现,如排序检索、知识库补全、问题回答等,并且无需人类监督。
Feb, 2021
本文提出了基于多任务学习和预训练技术的框架,利用文本、版面和图像的多模态信息学习通用文档表示,以支持多种下游文档任务,并在标准文档数据集上进行了广泛实验。
Sep, 2020