Feb, 2024

从屏幕截图提升语言理解能力

TL;DR我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数,通过掩盖和恢复截图中的图像块和文本,改善了截图语言模型的文本能力,并通过在 GLUE 任务上获得与 BERT 相当的性能(在 2% 之内)以及高达 8% 的改进,证明了所提出模型的有效性。