Jan, 2024

研究与读者之间的桥梁:一种多模态自动学术论文解读系统

TL;DR我们引入了一个开源的多模态自动学术论文解读系统(MMAPIS),通过三个步骤,包括 LLMs 来增强其功能:首先,我们利用混合模态的预处理和对齐模块来提取纯文本、表格或图像;然后根据所属章节的名称对这些信息进行对齐,确保具有相同章节名称的数据被归类到同一节下;接下来,我们采用分层的话语感知摘要方法,利用提取的章节名称将文章分割成较短的文本段落,通过具体提示使用 LLMs 进行节内和节间的摘要;最后,我们设计了四种类型的多样化用户界面,包括论文推荐、多模态问答、音频广播和解释博客,广泛适用于各种场景。我们的定性和定量评估突出了系统的优越性,尤其在科学摘要中,它胜过仅依赖 GPT-4 的解决方案。