Jun, 2023

面向文章图像零 - shot 问答的布局和任务感知指令提示

TL;DR本研究提出了一种基于 instruction-tuning 语言基础模型的 Zero-shot 能力和称为 LATIN-Prompt 的布局及任务感知的指令提示的方法,通过 OCR 工具中适当的空格和换行符从文本段中恢复布局信息,通过具体的任务描述确保模型生成满足格式要求的答案,提高了指令调整语言基础模型在文档图像问答上的零 - shot 性能,表现与基于预训练 - 微调范例的最新技术水平相当。