DocuMint: 使用小型语言模型为 Python 生成文档字符串

May, 2024

DocuMint: 使用小型语言模型为 Python 生成文档字符串

DocuMint: Docstring Generation for Python using Small Language Models

Bibek Poudel, Adam Cook, Sekou Traore, Shelah Ameli

TL;DR通过数学公式和人工评估使用 Likert 量表对性能进行定量评估和质量评估，研究了小型语言模型在生成高质量文档字符串方面的有效性，并引入了包含 10 万个样本的大规模监督微调数据集（DocuMint）。

Abstract

Effective communication, specifically through documentation, is the beating heart of collaboration among contributors in software development. Recent advancements in →

communication documentation language models docstrings performance benchmarking

发现论文，激发创造

大型语言模型在代码文档生成中的比较分析

本文对大型语言模型（LLMs）进行了全面的代码文档生成比较分析，评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档，值得注意的是，闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs（包括 LLama 2 和 StarChat）表现更好。就生成时间而言，GPT-4 的持续时间最长，其次是 Llama2、Bard，ChatGPT 和 Starchat 的生成时间相当，此外，文件级别文档在所有参数（时间除外）上表现明显较差，相比内联和函数级别文档。

Dec, 2023

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

大型语言模型在代码摘要上的性能分析

大语言模型在代码摘要任务方面，特别是代码生成和摘要具有很高的性能。本文发现，这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的（子词）标记重叠量。此标记重叠主要出现在代码的函数名称中，并通过移除函数名称与移除代码结构来比较这些模型的相对性能。另外，使用 BLEU 和 BERTScore 等多个评估指标对此问题的洞见非常有限，因为这些指标高度相关。

Apr, 2024

CodeExp: 生成说明性代码文档

本文提出了代码解释生成任务，通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择，并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美，这一任务可以极大地受益于软件维护和编程教育。

Nov, 2022

低资源和领域特定编程语言的编码潜力研究

本文研究了使用大型语言模型（LLM）在低资源和领域特定编程语言中进行编码的可行性，该类编程语言通常缺乏有效的 LLM 处理所需的数据量。本研究侧重于开源软件 gretl 的计量脚本语言 hansl，并采用基于 GPT-3.5 的专有 LLM。我们的研究发现，LLM 在编写、理解、改进和文档化 gretl 代码方面是一个有用的工具，包括为函数生成描述性文档字符串和为抽象和文档不完整的计量代码提供精确解释。尽管 LLM 展示了 docstring 到代码转换能力的潜力，我们也确定了一些限制，如无法改进某些代码部分和编写准确的单元测试。本研究是利用 LLM 的能力来促进低资源编程语言的软件开发并最终降低其采用门槛的一步。

Jul, 2023

使用大型语言模型丰富机器学习数据集文档

本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度，并将其用于丰富数据集描述的方法。通过此方法，可以创建机器可读的文档，改善数据集的可发现性，评估其符合当前的 AI 法规，并改善对其训练的 ML 模型的整体质量。

Apr, 2024

DocGen: 在 Python 中生成详细的参数文档字符串

文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题，我们提出了一种多步骤的方法，结合多个任务特定模型，每个模型都能产生 docstring 的特定部分，这些模型的组合确保了最终 docstring 中每个部分的包含。通过与现有的生成模型进行比较，我们的方法结果使用自动度量和 17 位开发者的人为评估，证明了我们方法的优越性。

Nov, 2023

MedDoc-Bot：儿科高血压指南背景下的大型语言模型比较分析聊天工具

这项研究评估了非商业开源大型语言模型（LLMs）Meditron，MedAlpaca，Mistral 和 Llama-2 在解释保存为 PDF 格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具（MedDoc-Bot），能够上传 PDF 文件并提出问题，从四个本地存储的 LLM 中生成解释性回复。研究发现，Llama-2 和 Mistral 在度量评估中表现良好，但 Llama-2 在处理文本和表格数据时较慢。

May, 2024

S3LLM: 使用源代码、元数据和文档的大规模科学软件理解

利用基于 LLM 的框架进行大规模科学软件的代码分析，通过自然语言查询实现快速理解以及消除对广泛编码经验的需求。

Mar, 2024

测试代码文档对大型语言模型代码理解的影响

通过对代码和文档的底层特性进行实证分析，我们发现错误的文档会大大阻碍大型语言模型对代码的理解能力，而不完整或缺失的文档似乎并不显著影响大型语言模型对代码的理解能力。

Apr, 2024