EMNLPJan, 2021

WebSRC: Web 结构阅读理解数据集

TL;DR本文提出了结构化阅读理解(SRC)的概念和挑战,介绍了基于 Web 的 SRC 任务和其难点,以及开发 WebSRC 数据集的方法和性质。WebSRC 包括 400K 个问题 - 答案对,涵盖了 6.4K 个 Web 页面,并公开了相应的 HTML 源代码、屏幕截图和元数据。该数据集对于文章的理解不仅需要理解文本语义,还需理解文章的结构。该文还进行了多种基础模型的评估,并探讨了结构信息和视觉特征的有用性。