元数据对科学文献标注的影响：一项跨领域跨模型的研究

WWWFeb, 2023

元数据对科学文献标注的影响：一项跨领域跨模型的研究

The Effect of Metadata on Scientific Literature Tagging: A Cross-Field Cross-Model Study

Yu Zhang, Bowen Jin, Qi Zhu, Yu Meng, Jiawei Han

TL;DR本文系统研究了 19 个领域中的元数据对科学文献标记的影响，并通过三种代表性多标签分类器探索它们在元数据作为附加特征时的性能变化，发现在所有领域中都存在有关元数据的普遍模式，以及在计算机科学和生物医学以外的领域中存在一些独特的模式。

Abstract

Due to the exponential growth of scientific publications on the Web, there is a pressing need to tag each paper with fine-grained topics so that researchers can track their interested fields of study rather than drowning in the whole literature. →

scientific literature tagging metadata multi-label classifiers fields of study performance change

发现论文，激发创造

ML 基础关键短语提取与验证的科学文本自动标注

本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据，特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明，所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签，其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。

Nov, 2023

科学文献元数据提取的新方法

本研究提出了一种自动、准确和灵活的算法，能够从数字化科学文章中直接提取各种元数据，包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现，具有较高的精度，适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。

Oct, 2017

元数据可能使语言模型更好

本文研究了在历史文献收藏品中训练语言模型时加入元数据的好处，通过对 19 世纪报纸的案例研究，扩展了 Rosin 等人 2022 年提出的时间遮蔽方法，并比较了将时间、政治和地理信息插入蒙版语言模型中的不同策略。实验证明，向语言模型展示相关元数据具有积极的影响，并可能产生更健壮、更公正的模型。通过在一系列评估任务上进行系统评估，包括伪困惑度、元数据蒙版填充和监督分类。

Nov, 2022

带元数据的神经模型文档

本篇论文基于主题模型，利用变分推断的方法，提出了一种通用的神经网络框架，允许灵活地结合元数据，通过迅速探索备选模型等方法，在保证困惑度、连贯性和稀疏性的情况下，取得了强大的性能。此外，通过对美国移民文章语料库的探索，展示了本框架的潜力。

May, 2017

元数据辅助下的最小监督文本分类

通过使用生成模型、利用元数据和合成训练样本，提出了一个文本分类方法 MetaCat，成功地解决了分类中存在的两个问题：元数据的使用和少量标注样本数据的问题。在多个数据集上验证实验，证明了该方法的有效性。

May, 2020

用于自定义文本分类的分类元数据表示

使用基向量来有效地将分类元数据合并到基于神经网络的模型的不同部分中，可以大大提高文本分类的性能。

Feb, 2019

元数据感知的大型层次文本分类

本文提出了一种基于 MATCH 方案的文本分类方法，旨在在大规模标签层次结构中利用元数据和层次信息提高分类效果，实验证明其比深度学习基线模型效果更好。

Feb, 2021

利用大型语言模型使元数据更加 FAIR

通过自然语言处理方法比较元数据的自然语言描述，提供了一种数学相似度量度，可用于分析各种元数据，通过深入研究多种大型语言模型，展示了算法在公开可用的研究数据集上 qualitatively 和 quantitatively 的有效性，从而大幅度减少了人工整理自然语言元数据的工作量。

Jul, 2023

超越标签：利用深度学习与 LLMs 进行内容元数据处理

内容元数据在电影推荐系统中起着非常重要的作用，通过分析元数据，可以了解用户偏好，生成个性化推荐，并解决物品冷启动问题。本文主要围绕着一种特定类型的元数据 ——“类型标签” 展开讨论，提出了一种名为 “类型光谱” 的新的类型信息检测方法，并通过离线和在线实验证实了该方法的有效性。此外，我们还讨论了在用户的二维主页网格中有效组织推荐的 LLMs 应用。

Sep, 2023

MotifClass: 基于高阶元信息的弱监督文本分类

本文探究了利用异构信息网络的 metadata 和 motif 来帮助弱监督文本分类，提出了一种名为 MotifClass 的新框架来选择标志类别 motif 实例，基于类别名称和标志类别 motif 实例检索并生成伪标记训练样本，使用伪训练数据训练文本分类器，并通过对真实世界数据集的广泛实验证明了 MotifClass 相对于现有弱监督文本分类方法的卓越性能和考虑高阶元数据信息在我们的框架中的好处。

Nov, 2021