Apr, 2024

表格结构和字符识别的多细胞解码器与相互学习

TL;DR从科学论文和财务报告等文件中提取表格内容,并将其转换为可以被大型语言模型处理的格式是知识信息处理中的一项重要任务。本文提出了一种多单元内容解码器和双向互相学习机制的端到端方法改进方案,通过两个大型数据集的实验结果表明,该方法在性能上与最先进的模型相当,甚至对于包含大量单元的长表格也能达到可比较的性能。