代码摘要的大型语言模型
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
大语言模型在代码摘要任务方面,特别是代码生成和摘要具有很高的性能。本文发现,这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的(子词)标记重叠量。此标记重叠主要出现在代码的函数名称中,并通过移除函数名称与移除代码结构来比较这些模型的相对性能。另外,使用 BLEU 和 BERTScore 等多个评估指标对此问题的洞见非常有限,因为这些指标高度相关。
Apr, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
对于语言模型在代码摘要中的可解释性的调查结果表明,语言模型的关注点与人类程序员的注意力没有显著关联,且没有发现人类注意力与语言模型生成摘要的质量之间的影响。这一结果呼吁进一步研究可解释性的语言模型和软件工程任务中的训练机制以及其他模型关注度的适用性。
Feb, 2024
通过对大型语言模型进行评估,并将其与学生创建的代码解释进行比较,本文发现自动生成的 LLM 代码解释具有更高的准确性和易理解性,从而提供了一种解决教育中代码解释挑战的新方法。
Apr, 2023
本研究提出了一个用于评估最新语言模型在生成并行代码方面能力的基准测试集,以及评估了多个开源和闭源语言模型在此基准测试集上的性能,并引入了用于比较并行代码生成性能的新指标,旨在探讨每个语言模型在不同并行编程模型和计算问题类型上的表现。
Jan, 2024
本文提出了一个新的端到端模型来同时处理代码摘要生成和检索两个任务通过引入额外的代码生成任务,利用双向学习明确地利用了代码摘要和代码生成之间的概率相关性,通过多任务学习利用用于代码摘要和代码生成的两个编码器训练代码检索任务。作者在现有的 SQL 和 Python 数据集上进行了广泛的实验,结果表明,我们的模型可以显著提高代码检索任务的结果,同时在代码摘要任务的 BLEU 得分方面也能够达到竞争性的性能。
Feb, 2020
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
近年来,深度学习通过能够学习语言数据的复杂表示方式从而在自然语言处理中带来了革命性的变化,深度学习模型广泛应用于提升多种自然语言处理任务的性能。本文综述了近年来流行的文本摘要任务,包括抽取式、生成式、多文档等,并讨论了相关的深度学习模型以及其在这些任务上的实验结果,同时涵盖了摘要任务的数据集和数据表示,以及与之相关的机遇和挑战,旨在激发未来的研究努力以进一步推动该领域的发展。研究目标在于解释这些方法在其需求上的不同之处,因为对它们的理解对于选择适用于特定环境的技术至关重要。
Oct, 2023