DACO：应用驱动的全面数据分析

Mar, 2024

DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation

Xueqing Wu, Rui Zheng, Jingzhen Sha, Te-Lin Wu, Hanyu Zhou...

TL;DR通过利用语言模型的代码生成能力和多轮提示技术，我们提出了 DACO-RL 算法，在数据分析领域生成高质量答案，通过人工批注验证该算法在 57.72% 的情况下生成更有帮助的答案。

Abstract

data analysis is a crucial analytical process to generate in-depth studies and conclusive insights to comprehensively answer a given user query for tabular data. In this work, we aim to propose new resources and benchma

data analysis annotations benchmarks daco dataset reinforcement learning

发现论文，激发创造

DACOS - 代码异味手动注释数据集

本文介绍了使用机器学习技术来检测代码坏味道的 DACOS 数据集，该数据集包含了 10,267 个对 5,192 个代码片段的注释，并通过第一阶段确定指标的阈值和第二阶段收集注释来识别潜在主观的代码片段。同时，作者还开发了一个网络应用程序 TagMan，以帮助标注者浏览和标记代码片段并记录提供的注释。这个数据集可以帮助研究人员建立相关的、上下文感知的机器学习模型。

Mar, 2023

CoaCor: 代码检索强化学习注释

本文研究了一种新颖的代码检索方法 CoaCor，通过强化学习的方式训练一个代码注释模型，以便于更好的检索相关的代码片段，并且实验证明此方法能够帮助现有的代码检索模型提升性能。

Mar, 2019

CoDa: 基于约束生成的数据增强方法用于低资源 NLP

CoDa 是一种控制性、有效性且无需训练的数据增强技术，用于低资源（数据不足）自然语言处理。通过从每个样本中提取简单的约束条件，我们使用指令型大型语言模型生成满足这些约束条件的文本，从而产生了多样且新颖的训练实例。我们的研究结果表明，遵循下游数据集中的简单约束条件的合成数据作为有效的数据增强，在不需要复杂的解码约束生成技术或精细调优的情况下，CoDa 可以实现这一目标，从而避免了模型偏向训练样本数量较少的问题。此外，CoDa 是第一个可以让用户对数据增强生成过程进行明确控制的框架，并支持多个领域的简单适应性。通过覆盖 3 种任务和 3 种低资源设置的 11 个数据集，我们展示了 CoDa 的有效性，其相对基准模型在定性和定量上均有 0.12%-7.19% 的改进。代码可在此链接中找到：this https URL。

Mar, 2024

CoDA: 自然语言理解的对比增强和多样性促进数据增强

本文提出了一种名为 CoDA 的新型数据增强框架，通过整合多种转换方法，试图解决文本数据增强中的标签保留问题。实验表明，CoDA 架构在多种自然语言理解任务中平均提高了 2.2% 的效果，相较其他基线方法表现更强

Oct, 2020

增强形式定理证明：一个用于训练 Coq 代码 AI 模型的综合数据集

该研究论文介绍了一个专门设计用于提高大型语言模型在解释和生成 Coq 代码方面能力的全面数据集，通过亦包含源引用和许可信息的数千个 Coq 源代码文件，初步实验表明使用该数据集训练的模型在 Coq 代码生成方面具有显著的潜力。

Mar, 2024

数据流导向的代码库级代码补全增强

近年来，代码语言模型在代码智能任务中的部署日益增多，但是预训练模型要在私有仓库中生成正确的自动补全是具有挑战性的。本文提出了一种名为 DraCo 的数据流引导检索增强方法，用于仓库级别的代码自动补全，其通过扩展的数据流分析将私有仓库解析为代码实体并建立它们之间的关系，形成一个仓库特定的上下文图。每当触发代码自动补全时，DraCo 会精确地从仓库特定的上下文图中检索相关的背景知识，并生成良好的代码查询提示。此外，我们构建了一个包含更多不同补全目标的大型 Python 数据集 ReccEval。实验证明了 DraCo 的卓越准确性和适用性，与最先进的方法相比，在精确匹配代码方面平均提升了 3.43%，在标识符 F1 - 分数方面平均提升了 3.27%。

May, 2024

QACP: 协助中文 Python 编程学习者的问题回答数据集

为了解决编程教育中的数据稀缺问题，本文提出了一个针对 Python 学习者的新的中文问答数据集，通过收集实际学生问题并根据不同维度进行分类，以提高在线编程教育的效果和质量，并为开发编程教学助手提供扎实的数据基础。同时，通过对各种处理和生成中文内容的大型语言模型进行全面评估，凸显了通用大型语言模型在计算机编程课程中作为智能教学助手的潜在局限性。

Jan, 2024

TACO：算法代码生成数据集中的主题

我们介绍了 TACO，这是一个开放源代码的大规模代码生成数据集，重点关注算法的光学，旨在提供更具挑战性的训练数据和评估基准，用于代码生成模型领域。TACO 包括竞赛级编程问题，旨在增强或评估实际编程场景中的问题理解和推理能力。数据集中包含了训练集和测试集中的 25433 个和 1000 个编码问题，以及高达 155 万个多样化的解决方案答案。此外，每个 TACO 问题都包含了任务主题、算法、编程技巧和难度级别等多个细粒度标签，为训练和评估代码生成模型提供更精确的参考。数据集和评估脚本可在 Hugging Face Hub 和 Github 上获取。

Dec, 2023

MDACE：用代码证据注释的 MIMIC 文档

我们介绍了一个用于长篇医学文档上的证据 / 理由提取的数据集。该数据集可用于评估计算机辅助编码系统（CAC）中代码证据提取方法的性能，以及深度学习模型在多标签分类中的准确性和可解释性。

Jul, 2023

利用人类和模型循环收集高质量对抗数据以用于机器阅读理解任务

本文介绍我们在创建高质量的、针对任务 1 的机器阅读理解数据的过程中的经验，并描述了我们基于不同专题的定量定性分析结果以及与注释员信心的相关性，最后我们提出了相关建议。

Jun, 2022