Aug, 2023
SciGraphQA:面向科学图表的大规模合成多轮问答数据集
SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering
Dataset for Scientific Graphs
TL;DR本文介绍了SciGraphQA,这是一个与学术图表相关的合成多轮问答数据集,它是迄今为止最大的非合成图表视觉问答数据集,使用Palm-2从计算机科学和机器学习ArXiv论文中生成了295K个开放式多轮问答对话样本,并通过GPT-4评估了问题-回答的匹配质量。最后,通过利用从图表中提取的序列化数据表格和DePlot模型,使用LLaVA-13B进行了进一步的改进,最终的评估CIDEr为0.26。