ACLOct, 2021

从未标注的数据中提取表单字段

TL;DR该研究提出了一个新的框架,使用未标记的数据来进行表单字段提取。通过挖掘未标记表单中的噪声伪标签来启动训练过程,并提取转换器模型中的区分性记号表示,以建模表单中的文本交互,并引入基于逐步伪标签集合的细化模块,以防止模型过拟合标签噪声。实验结果表明了该框架的有效性。