挖掘文档以提取超参数架构

Jun, 2020

Mining Documentation to Extract Hyperparameter Schemas

Guillaume Baudart, Peter D. Kirchner, Martin Hirzel, Kiran Kate

TL;DR本篇论文介绍了如何自动挖掘 AI 库中的 Python 函数文档字符串以提取 JSON 超参数模式，以减轻手动创建和维护自动化工具中的超参数模式的负担，拓宽自动化应用范围。

Abstract

ai automation tools need machine-readable hyperparameter schemas to define their search spaces. At the same time, AI libraries often come

ai automation tools machine-readable hyperparameter schemas python docstrings json schemas automation

发现论文，激发创造

HyperPIE：从科学出版物中提取超参数信息

从科学出版物中自动提取信息对于使科学知识在大规模上可读化至关重要。本文将超参数信息提取（HyperPIE）形式化并解决为实体识别和关系提取任务，基于来自各种计算机科学学科的出版物创建了一个标记数据集，采用 BERT 等模型进行训练和评估，提出了一种关系提取方法，在有限调整模型上实现了 29% F1 值的改善。同时，利用 YAML 输出进行结构化数据提取的方法在实体识别上相对于 JSON 平均提高了 5.5% F1 值。通过最佳性能模型，我们从大量未标注的论文中提取了超参数信息，并分析了学科间的模式。

Dec, 2023

DocGen: 在 Python 中生成详细的参数文档字符串

文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题，我们提出了一种多步骤的方法，结合多个任务特定模型，每个模型都能产生 docstring 的特定部分，这些模型的组合确保了最终 docstring 中每个部分的包含。通过与现有的生成模型进行比较，我们的方法结果使用自动度量和 17 位开发者的人为评估，证明了我们方法的优越性。

Nov, 2023

Python 函数和文档字符串的平行语料库，用于自动化代码文档和代码生成

本论文介绍了一个由十万个 Python 函数及其文档字符串（docstrings）组成的大型多样并行语料库，用于自然语言生成代码和代码文档生成任务的基线结果是经过神经机器翻译获得的。

Jul, 2017

在 AI 中浏览数据集文档：对 Hugging Face 上数据集卡片的大规模分析

通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析，本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解，得出了 5 个主要发现：（1）数据集卡完成率存在显著的异质性，并与数据集的受欢迎程度相关；（2）对数据集卡中的每个部分进行细致的研究发现，从业者似乎优先考虑数据集描述和数据集结构部分，而使用数据部分的内容比例最低；（3）通过分析每个部分中的子部分，并利用主题建模方法识别关键主题，我们发现了每个部分讨论的内容，并强调了技术和社会影响以及使用数据部分的局限性；（4）我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要；（5）此外，我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言，本研究通过大规模数据科学分析提供了对数据集文档的独特视角，并强调了机器学习研究中更加全面的数据集文档需求。

Jan, 2024

CodeExp: 生成说明性代码文档

本文提出了代码解释生成任务，通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择，并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美，这一任务可以极大地受益于软件维护和编程教育。

Nov, 2022

DocuMint: 使用小型语言模型为 Python 生成文档字符串

通过数学公式和人工评估使用 Likert 量表对性能进行定量评估和质量评估，研究了小型语言模型在生成高质量文档字符串方面的有效性，并引入了包含 10 万个样本的大规模监督微调数据集（DocuMint）。

May, 2024

DeepArchitect: 自动设计和训练深层体系结构

本文提出一种可自动设计、训练深度神经网络的框架，通过自动配置架构和超参数进行模型搜索，实现了对复杂搜索空间的高效探索，并展示了随机搜索、蒙特卡罗树搜索和顺序模型优化等多种模型搜索算法在 CIFAR-10 数据集上的比较试验结果。

Apr, 2017

开放数据表：机器可读的开放数据集文档和负责任的人工智能评估

介绍了一种无代码、机器可读的开放数据集文档框架，关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性，促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估，帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施，并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性，促进更负责任和值得信赖的人工智能系统的发展。

Dec, 2023

AI 系统的动态文档

本文阐述了目前 AI 文档标准的局限性，并提出动态文档作为评估 AI 系统的新范式。通过对比传统环境影响声明框架与目前算法文档标准之间的区别，以及结合模型卡和两个算法影响评估案例的分析，最后评估了动态 AI 文档规范的最新提议。

Mar, 2023

机器学习从业者数据文档化的认知、需求、挑战与需求

通过对 14 位机器学习从业者的半结构化访谈，发现目前数据文档化方法在性质上往往是临时性和目光短浅的，因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求，以解决现有文档化方法无法满足其需求的问题。

Jun, 2022