Jan, 2022

DOM-LM: 为 HTML 文档学习通用表示

TL;DR本文提出了一种用于网页的新颖表示学习方法,称为 DOM-LM,以编码文本和 DOM 树结构,并通过自监督预训练学习 HTML 文档的可推广表示,实现了 Attribute Extraction,Open Information Extraction 和 Question Answering 等多种网页理解任务,并在少量标记数据和无标记数据的情况下表现出更好的泛化性能,适用于有限标记数据的实际应用环境。