元数据对科学文献标注的影响:一项跨领域跨模型的研究
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023
本研究提出了一种自动、准确和灵活的算法,能够从数字化科学文章中直接提取各种元数据,包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现,具有较高的精度,适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。
Oct, 2017
本文研究了在历史文献收藏品中训练语言模型时加入元数据的好处,通过对 19 世纪报纸的案例研究,扩展了 Rosin 等人 2022 年提出的时间遮蔽方法,并比较了将时间、政治和地理信息插入蒙版语言模型中的不同策略。实验证明,向语言模型展示相关元数据具有积极的影响,并可能产生更健壮、更公正的模型。通过在一系列评估任务上进行系统评估,包括伪困惑度、元数据蒙版填充和监督分类。
Nov, 2022
本篇论文基于主题模型,利用变分推断的方法,提出了一种通用的神经网络框架,允许灵活地结合元数据,通过迅速探索备选模型等方法,在保证困惑度、连贯性和稀疏性的情况下,取得了强大的性能。此外,通过对美国移民文章语料库的探索,展示了本框架的潜力。
May, 2017
通过使用生成模型、利用元数据和合成训练样本,提出了一个文本分类方法 MetaCat,成功地解决了分类中存在的两个问题:元数据的使用和少量标注样本数据的问题。在多个数据集上验证实验,证明了该方法的有效性。
May, 2020
通过自然语言处理方法比较元数据的自然语言描述,提供了一种数学相似度量度,可用于分析各种元数据,通过深入研究多种大型语言模型,展示了算法在公开可用的研究数据集上 qualitatively 和 quantitatively 的有效性,从而大幅度减少了人工整理自然语言元数据的工作量。
Jul, 2023
内容元数据在电影推荐系统中起着非常重要的作用,通过分析元数据,可以了解用户偏好,生成个性化推荐,并解决物品冷启动问题。本文主要围绕着一种特定类型的元数据 ——“类型标签” 展开讨论,提出了一种名为 “类型光谱” 的新的类型信息检测方法,并通过离线和在线实验证实了该方法的有效性。此外,我们还讨论了在用户的二维主页网格中有效组织推荐的 LLMs 应用。
Sep, 2023
本文探究了利用异构信息网络的 metadata 和 motif 来帮助弱监督文本分类,提出了一种名为 MotifClass 的新框架来选择标志类别 motif 实例,基于类别名称和标志类别 motif 实例检索并生成伪标记训练样本,使用伪训练数据训练文本分类器,并通过对真实世界数据集的广泛实验证明了 MotifClass 相对于现有弱监督文本分类方法的卓越性能和考虑高阶元数据信息在我们的框架中的好处。
Nov, 2021