KDDMay, 2018

语料库转换服务:一个用于批量处理文档的机器学习平台

TL;DR本研究论文介绍了一种名为 Corpus Conversion Service 的模块化云平台,用于海量文档的处理、文本挖掘和机器学习算法的训练,最终将任何类型的 PDF 或位图文档转换为结构化内容表示格式,且能够达到 99%的准确度,并已在 IBM 内部基础设施上部署,并为超过 250 个活跃用户提供服务。