Aug, 2023

诺加:学术文档的神经光学理解

TL;DR我们提出了一种名为 Nougat 的神经光学理解学术文档的模型,它使用光学字符识别(OCR)将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性,将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。