Apr, 2021

LaTeX-Numeric: 面向电商数字属性的语言无关文本属性提取

TL;DR本文提出了LaTeX-Numeric,用于从产品文本(例如产品描述)中提取电子商务数值属性的高精度全自动可扩展框架。该框架通过远程监督进行训练数据生成,摆脱了手动标签的依赖,并提出了一种多任务学习架构来处理训练数据中的缺失标签,从而提高了数值属性的 F1 值。同时,提出了自动技术以进一步改进数值属性提取模型,其中包括单位/别名列表的自动创建等方面的改进技术,最终证明这些改进是与语言无关的,并取得了良好的提取效果。