DocuMint: 使用小型语言模型为 Python 生成文档字符串
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档,值得注意的是,闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs(包括 LLama 2 和 StarChat)表现更好。就生成时间而言,GPT-4 的持续时间最长,其次是 Llama2、Bard,ChatGPT 和 Starchat 的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
大语言模型在代码摘要任务方面,特别是代码生成和摘要具有很高的性能。本文发现,这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的(子词)标记重叠量。此标记重叠主要出现在代码的函数名称中,并通过移除函数名称与移除代码结构来比较这些模型的相对性能。另外,使用 BLEU 和 BERTScore 等多个评估指标对此问题的洞见非常有限,因为这些指标高度相关。
Apr, 2024
本文提出了代码解释生成任务,通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择,并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美,这一任务可以极大地受益于软件维护和编程教育。
Nov, 2022
本文研究了使用大型语言模型(LLM)在低资源和领域特定编程语言中进行编码的可行性,该类编程语言通常缺乏有效的 LLM 处理所需的数据量。本研究侧重于开源软件 gretl 的计量脚本语言 hansl,并采用基于 GPT-3.5 的专有 LLM。我们的研究发现,LLM 在编写、理解、改进和文档化 gretl 代码方面是一个有用的工具,包括为函数生成描述性文档字符串和为抽象和文档不完整的计量代码提供精确解释。尽管 LLM 展示了 docstring 到代码转换能力的潜力,我们也确定了一些限制,如无法改进某些代码部分和编写准确的单元测试。本研究是利用 LLM 的能力来促进低资源编程语言的软件开发并最终降低其采用门槛的一步。
Jul, 2023
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题,我们提出了一种多步骤的方法,结合多个任务特定模型,每个模型都能产生 docstring 的特定部分,这些模型的组合确保了最终 docstring 中每个部分的包含。通过与现有的生成模型进行比较,我们的方法结果使用自动度量和 17 位开发者的人为评估,证明了我们方法的优越性。
Nov, 2023
这项研究评估了非商业开源大型语言模型(LLMs)Meditron,MedAlpaca,Mistral 和 Llama-2 在解释保存为 PDF 格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具(MedDoc-Bot),能够上传 PDF 文件并提出问题,从四个本地存储的 LLM 中生成解释性回复。研究发现,Llama-2 和 Mistral 在度量评估中表现良好,但 Llama-2 在处理文本和表格数据时较慢。
May, 2024
通过对代码和文档的底层特性进行实证分析,我们发现错误的文档会大大阻碍大型语言模型对代码的理解能力,而不完整或缺失的文档似乎并不显著影响大型语言模型对代码的理解能力。
Apr, 2024