Python 函数和文档字符串的平行语料库，用于自动化代码文档和代码生成

Jul, 2017

Python 函数和文档字符串的平行语料库，用于自动化代码文档和代码生成

A parallel corpus of Python functions and documentation strings for automated code documentation and code generation

Antonio Valerio Miceli Barone, Rico Sennrich

TL;DR本论文介绍了一个由十万个 Python 函数及其文档字符串（docstrings）组成的大型多样并行语料库，用于自然语言生成代码和代码文档生成任务的基线结果是经过神经机器翻译获得的。

Abstract

automated documentation of programming source code and automated code generation from natural language are challenging tasks of both practical and scientific interest. Progress in these areas has been limited by the low availability of →

automated documentation automated code generation parallel corpora python functions neural machine translation

发现论文，激发创造

AVATAR: 用于 Java-Python 程序翻译的并行语料库

本文介绍了一个包括 Java 和 Python 的 8,475 个编程问题和解决方案的数据集，以及在此数据集上进行的基于监督学习的程序翻译模型的实验。实验结果表明，这些模型在词汇匹配方面表现良好，但在语法和数据流匹配方面表现出欠缺。

Aug, 2021

CodeExp: 生成说明性代码文档

本文提出了代码解释生成任务，通过多阶段优化和基线模型的 fine-tuning 使得模型在生成的解释中包含更多实现级别的选择，并在实验中展示了一个经过改进的训练数据集可以比较人工撰写的 docstring 相媲美，这一任务可以极大地受益于软件维护和编程教育。

Nov, 2022

学习技术文档中的语义关联

本文通过挖掘技术文档中的文本 - 表达式对来训练一个基于语义分析的模型，以学习高级文本描述和目标文档中表现函数或代码模板的形式表示之间的翻译对应关系，并在 16 个新颖数据集上报告了新的基线结果，包括 7 种自然语言的九种流行编程语言的标准库文档和一些 UNIX 实用程序手册。

May, 2017

PyMT5: 基于 transformers 的自然语言和 Python 代码多模翻译

介绍了一种名为 PyMT5 的 Python 方法文本到文本转换器，它可以从自然语言文档字符串（docstrings）预测整个 python 方法，并将代码总结为任何常见文档风格的字符串。经过实验验证，在 docstring 和方法生成方面，PyMT5 比类似大小的自回归语言模型容错性更强。

Oct, 2020

利用自然语言处理技术实现 API 代码摘要

本研究提出了一种使用自然语言处理技术通过非官方文档生成 API 和方法摘要的自动化方法，该方法可以作为指导开发人员进行软件开发和维护任务的补充来源。

Aug, 2022

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998

一个不断增长的句子释义数据集

本文提出了一种从 Twitter 采集大规模句子释义的新方法，通过链接共享的 URL，并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。

Aug, 2017

利用可比语料和多个参考文献进行代码翻译的数据增强

通过构建可比较的语料库和多重参考翻译，以及使用自动生成的翻译参考和单元测试进行筛选，我们提出了两种数据增强技术来克服不同编程语言之间的代码翻译挑战，并通过平均 7.5% 的计算准确度改进了 CodeT5 的 Java、Python 和 C++ 代码翻译性能。

Nov, 2023

DocGen: 在 Python 中生成详细的参数文档字符串

文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题，我们提出了一种多步骤的方法，结合多个任务特定模型，每个模型都能产生 docstring 的特定部分，这些模型的组合确保了最终 docstring 中每个部分的包含。通过与现有的生成模型进行比较，我们的方法结果使用自动度量和 17 位开发者的人为评估，证明了我们方法的优越性。

Nov, 2023

自动生成排名的俄语改述语料库用于文本生成

本文是关于用于俄语释义生成的大规模语料库进行自动开发和排名的，提出了 ParaPhraser Plus 数据集以解决目前该领域小规模的语料库难以在文本生成中应用的问题，并使用 Universal Transformer 架构进行了实验。

Jun, 2020