一种基于集成方法的将文本分配到正确谐波系统编码的方法

Nov, 2022

一种基于集成方法的将文本分配到正确谐波系统编码的方法

An Ensemble-based approach for assigning text to correct Harmonized system code

Shubham, Avinash Arya, Subarna Roy, Sridhar Jonnala

TL;DR本研究开发了一个分层集成模型，包括 Bert-transformer、NER、基于距离的方法和知识图谱等，以满足国际货物分类和税务评估方面的可扩展性、覆盖范围、自动化和审计要求，从而按照最标准的数值方法（Harmonized System）对未知文本描述进行分类。

Abstract

Industries must follow government rules and regulations around the world to classify products when assessing duties and taxes for international shipment. harmonized system (HS) is the most standardized numerical method of classifying traded products among industry →

harmonized system classification bert-transformer automation knowledge-graphs

发现论文，激发创造

可解释的海关产品分类

我们提出了一个首次可解释的决策支持模型，用于给交易商品分配国际通用商品编码（即 HS 编码）中最可能的子标题（前六位数字），并通过可解释的文件形式给出其建议的原因。通过对最近收到分类请求的 5,000 个案例进行评估，结果显示我们模型的前三个建议，在分类 925 个具有挑战性的子标题时的准确度达到 93.9％。另外，通过对 32 位海关专家进行用户研究，进一步证实我们算法建议附带可解释的原因，可以显著减少海关人员进行分类审核所需的时间和工作量。

Nov, 2023

基于集成分类器的自动单标签专利分类

本文使用词向量和深度学习技术研究专利分类的任务，并尝试使用不同的特征表示和基于专利文件不同部分的集成分类器。结果表明，与目前最先进的独立解决方案相比，分类器的集成架构显著优于独立解决方案。

Mar, 2022

重要学术会议论文的层次主题分类

本文发展了一个用于层次化文本分类的决策支持系统，提出了一种加权层次化相似性函数来计算主题的相关性，并使用熵来估计权重。通过与其他方法比较，该加权层次化相似性函数在主题排名准确性方面有了更好的改进。

Jun, 2024

基于非结构化文本的列车管理系统的层次延迟归因分类

该研究旨在使用机器学习为基于事件描述的延误归因代码分配提供决策支持，并且结果表明分层方法比平面方法更有效，但均不如手工分类。

Feb, 2024

利用新数据和集成模型提高可持续发展目标的自动标注

本研究比较了不同文本源使用的多个基于文本的系统以监测联合国可持续发展目标，证明了这些系统在真阳性率和真阴性率方面存在显著差异，偏好某些可持续发展目标，且受到分析的文本类型和数量的影响。研究发现汇集多个标注系统的集成模型能改善这些限制，以优于所有现有系统的标注性能。自动化方法应结合集成方法作为推断联合国可持续发展目标研究工作的使用。

Jan, 2023

面向产品项目分类的多输出头集成

本研究回顾了针对大规模电子商务目录的产品项分类问题。我们提出了一种基于深度学习的分类模型框架，利用多个分类器的组合和融合来改善分类性能，并使用元数据特征和低级特征工程来提升模型质量。此外，我们还提出了一种使用用户会话评估模型性能的新方法，相较于传统的精确度和召回率等评估指标，提供更详尽的洞察力。

Jul, 2023

电子商务中的产品分类使用分布语义学

针对商品分类中的文本表示和算法效率问题，我们提出了一种新的分布式语义表示方法和两层集合式分类器来降低错误率，实验结果表明，我们的方法比先前的方法在各种评价指标上更有效。

Jun, 2016

电子商务搜索中的层次化查询分类

通过增强的表示学习和细粒度实例关系的对比损失，以及关注内在标签分类法的细粒度层次分类损失，我们提出了一种新颖的框架来解决层次化查询分类的挑战，同时利用与已标注查询共享的无标签查询的相似性智能地选择这些查询以提高分类性能。实验证明，我们的方法优于专有的 Amazon 数据集上的最先进方法，并与 Web of Science 和 RCV1-V2 的公共数据集中的最先进方法相媲美，这些结果凸显了我们提出解决方案的有效性，并为下一代层次感知查询分类系统铺平了道路。

Mar, 2024

适应性分类学习与专利分类的历史模式建模

我们提出了一个综合考虑专利信息的专利分类框架，通过自适应地传递和聚合同级和不同级别的信息来推导 IPC 代码的语义表示；通过双通道聚合机制，设计了一个历史应用模式学习组件，以整合相应申请人的先前专利；最后，结合包含 IPC 代码语义和申请人的顺序偏好的专利文本的上下文信息进行预测。实证分析表明我们的方法优于现有方法，并展示了该模型捕捉申请人的时间模式和 IPC 代码之间的语义依赖关系的能力。

Aug, 2023

ICT 供应链的大型表格数据处理：多任务、机器可解释性方法

提出了一种基于图的表格结构识别（TSR）任务和表格单元格类型分类（CTC）任务的多任务模型，通过使用文本模态和图像模态特征来同时解决这两个任务，旨在将电子文档中的表格数据转化为可机读格式，并为信息提取和解释提供布局和语义信息。实验结果表明，该方法在 ICDAR2013 和 UNLV 数据集上的性能优于现有的方法。

Aug, 2022