数字图书馆中学习资源类别的自动识别

Nov, 2023

数字图书馆中学习资源类别的自动识别

Automatic Recognition of Learning Resource Category in a Digital Library

Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das

TL;DR为数字图书馆开发自动元数据提取器，介绍了异构学习资源数据集，通过 OCR 工具对文档图像进行分类，并利用其标签预测整体文档的标签。

Abstract

digital libraries often face the challenge of processing a large volume of diverse document types. The manual collection and tagging of metadata can be a time-consuming and error-prone task. To address this, we aim to develop an →

digital libraries metadata extractor automatic document image classification ocr tool

发现论文，激发创造

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

具有多样性和具有区分性的表示学习的通用低资源活动识别

提出了一种名为 DDLearn 的新方法，通过构建自监督学习任务，同时考虑多样性和判别性学习，扩大数据多样性和探索潜在的活动属性，从而实现针对低资源人类活动识别的泛化。

May, 2023

高度异质性文档集的探索性分析

使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略，以及强大的 faceted 浏览框架，为高度异构文档集合提供了一种有效的多方面系统，其中重要的标记策略之一是 KERA 算法，如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位，证明我们的系统是有效的。

Aug, 2013

异构图上层次表示学习的跨语言引文建议

本研究提出了一种新颖的方案，通过异构图上的分层表示学习来进行跨语言引用推荐，可以优化出在图上定位重要的跨语言邻域的概率，实验结果显示该方法不仅可以超越现有的基线模型，而且可以提高跨语言引用推荐任务的表现。

Dec, 2018

从图书中构建图像与文本对数据集

利用数字档案进行机器学习的新方法，通过光学字符阅读器（OCR）、物体检测器和布局分析器构建数据集，展示其在图像 - 文本检索和洞察力提取方面的有效性。

Oct, 2023

基于层次元数据感知的弱监督文档分类

本研究介绍了 HiMeCat，一种基于嵌入式生成框架的弱监督文档分类方法，它能够有效地整合文本、元数据和标签层次结构，并通过数据增强和联合表示学习模块进一步优化分类效果。

Oct, 2020

多语言和跨语言文档分类：元学习方法

该论文提出了一种元学习方法，可以在有限资源的情况下进行文档分类，并在少量标记数据的情况下取得了较好的效果，涉及跨语言、多语言的情况。作者还对多个元学习方法进行了比较和调整，提出了一种简单且有效的调整方式，并在多语言上取得了新的最佳表现。

Jan, 2021

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

深度阅读器：通过关系抽取和自然语言从文档图像中提取信息

这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架，其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取，包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。

Dec, 2018

科学文献元数据提取的新方法

本研究提出了一种自动、准确和灵活的算法，能够从数字化科学文章中直接提取各种元数据，包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现，具有较高的精度，适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。

Oct, 2017