Oct, 2023

基于半监督学习的自动食谱类型分类研究

TL;DR本研究提出了一个名为 “3A2M + 烹饪食谱数据集” 的数据集,其中包含 200 万个带有从食谱描述中提取的扩展命名实体的烹饪食谱,该数据集包括标题、命名实体识别、步骤和扩展命名实体等各种特征,并使用两个命名实体提取工具扩展了命名实体识别列表以解决食谱指令中缺失的命名实体,如热量、时间或过程,同时通过传统机器学习、深度学习和预训练语言模型将食谱分类为相应的风格,并达到了 98.6%的整体准确率。研究结果表明,标题特征在分类风格时起到了更重要的作用。