Dec, 2023

TACO:算法代码生成数据集中的主题

TL;DR我们介绍了 TACO,这是一个开放源代码的大规模代码生成数据集,重点关注算法的光学,旨在提供更具挑战性的训练数据和评估基准,用于代码生成模型领域。TACO 包括竞赛级编程问题,旨在增强或评估实际编程场景中的问题理解和推理能力。数据集中包含了训练集和测试集中的 25433 个和 1000 个编码问题,以及高达 155 万个多样化的解决方案答案。此外,每个 TACO 问题都包含了任务主题、算法、编程技巧和难度级别等多个细粒度标签,为训练和评估代码生成模型提供更精确的参考。数据集和评估脚本可在 Hugging Face Hub 和 Github 上获取。