May, 2023

VNHSGE: 用于大型语言模型的越南高中毕业考试数据集

TL;DR介绍了一个新的Vietnamese National High School Graduation Examination数据集,用于评估大型语言模型(LLMs)在多任务情况下的表现,其中包含文本和相关图像,并使用ChatGPT和BingChat对其进行评估,结果表明大型语言模型在文学、英语、历史、地理和公民教育方面能达到人类水平,但在数学、物理、化学和生物等领域还有提升的空间。该数据集旨在为评估LLMs的能力提供足够的基准,并督促未来更多的LLMs在数学和自然科学领域的发展。