Python 函数和文档字符串的平行语料库,用于自动化代码文档和代码生成
本文介绍了一个包括 Java 和 Python 的 8,475 个编程问题和解决方案的数据集,以及在此数据集上进行的基于监督学习的程序翻译模型的实验。实验结果表明,这些模型在词汇匹配方面表现良好,但在语法和数据流匹配方面表现出欠缺。
Aug, 2021
本文提出了代码解释生成任务,通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择,并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美,这一任务可以极大地受益于软件维护和编程教育。
Nov, 2022
本文通过挖掘技术文档中的文本 - 表达式对来训练一个基于语义分析的模型,以学习高级文本描述和目标文档中表现函数或代码模板的形式表示之间的翻译对应关系,并在 16 个新颖数据集上报告了新的基线结果,包括 7 种自然语言的九种流行编程语言的标准库文档和一些 UNIX 实用程序手册。
May, 2017
介绍了一种名为 PyMT5 的 Python 方法文本到文本转换器,它可以从自然语言文档字符串(docstrings)预测整个 python 方法,并将代码总结为任何常见文档风格的字符串。经过实验验证,在 docstring 和方法生成方面,PyMT5 比类似大小的自回归语言模型容错性更强。
Oct, 2020
本研究提出了一种使用自然语言处理技术通过非官方文档生成 API 和方法摘要的自动化方法,该方法可以作为指导开发人员进行软件开发和维护任务的补充来源。
Aug, 2022
本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法,该方法是概念上简单,完全独立于语言且可扩展的,初步评估结果表明该方法可能足够准确,可以在不需要人工干预的情况下应用。
Aug, 1998
本文提出了一种从 Twitter 采集大规模句子释义的新方法,通过链接共享的 URL,并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。
Aug, 2017
通过构建可比较的语料库和多重参考翻译,以及使用自动生成的翻译参考和单元测试进行筛选,我们提出了两种数据增强技术来克服不同编程语言之间的代码翻译挑战,并通过平均 7.5% 的计算准确度改进了 CodeT5 的 Java、Python 和 C++ 代码翻译性能。
Nov, 2023
文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题,我们提出了一种多步骤的方法,结合多个任务特定模型,每个模型都能产生 docstring 的特定部分,这些模型的组合确保了最终 docstring 中每个部分的包含。通过与现有的生成模型进行比较,我们的方法结果使用自动度量和 17 位开发者的人为评估,证明了我们方法的优越性。
Nov, 2023
本文是关于用于俄语释义生成的大规模语料库进行自动开发和排名的,提出了 ParaPhraser Plus 数据集以解决目前该领域小规模的语料库难以在文本生成中应用的问题,并使用 Universal Transformer 架构进行了实验。
Jun, 2020