Nov, 2023

利用 Transformer 提取数学学术文章中的定义

TL;DR我们考虑从学术论文的文本中自动识别数学定义中的明确术语。我们将问题作为(a)使用微调的预训练变压器进行令牌级分类任务,以及(b)使用通用大型语言模型(GPT)进行问答任务来解决。我们还提出了一种基于规则的方法,通过从论文的 LATEX 源代码构建一个带标签的数据集。实验结果表明,使用最近(和昂贵的)GPT 4 或在我们的任务上进行微调的较简单的预训练模型均可以达到高精度和召回率的水平。