神经代码摘要评估

Jul, 2021

On the Evaluation of Neural Code Summarization

Ensheng Shi, Yanlin Wang, Lun Du, Junjie Chen, Shi Han...

TL;DR本文采用系统性和深入分析方法，分析了 5 种最先进的神经代码自动摘要模型在 6 种广泛使用的 BLEU 变量、4 种预处理操作及其组合以及 3 种广泛使用的数据集上的评估结果，发现评估代码摘要模型的三个主要因素 ——BLEU 评估指标、代码预处理选择和数据集特征 —— 对模型的性能和排名有重要影响。文章提出了可行建议来评估代码自动摘要和在不同情景下选择最佳方法，并建立了一个共享代码自动摘要工具箱促进未来研究。

Abstract

Source code summaries are important for program comprehension and maintenance. However, there are plenty of programs with missing, outdated, or mismatched summaries. Recently, deep learning techniques have been exploited to automatically generate summaries for given code snippets. To achieve a profound understanding of how far we are from solving this proble

code summarization neural network bleu metric pre-processing dataset characteristics

发现论文，激发创造

代码注释翻译：模型效果与误差比较研究

比较三种源代码摘要生成模型的定量和定性评估，揭示了基于度量的性能与模型预测错误之间关系的新洞见，并提供了摇号学习实验中可以用来推动未来研究工作的经验性错误分类学。

Jun, 2021

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

神经文本摘要：一项关键评估

评估标准数据集、评估指标、模型三方面存在的问题，提出了数据集自动采集、评估不足以反映人类判断、模型样本不足多样化等三个主要问题，导致长文本摘要进展不一。

Aug, 2019

一种生成程序子程序自然语言摘要的神经模型

本研究提出了一种新的神经网络模型，它可以将源代码的单词和代码结构（AST）结合起来，从而能够生成准确的注释文档。与传统的基于模板的系统不同，该模型可以更好地学习代码结构，即使程序缺乏内部文档，也可以在演示中提供连贯的描述，并在 SE 文献和 NLP 文献中得到进一步的改进和应用验证。

Feb, 2019

ESALE：增强源代码摘要对齐学习的方法

通过多任务学习范式，利用三个以摘要为重点的任务训练编码器，提出了一种新的改进代码摘要的方法，这三个任务包括单向语言建模（ULM）、掩码语言建模（MLM）和动作词预测（AWP）。实验证明，我们的方法 ESALE 在四个数据集上的表现明显优于基线模型，包括 BLEU、METEOR 和 ROUGE-L 三个广泛使用的指标。

Jul, 2024

一种源代码摘要的抽取和生成框架

本研究提出了一种新的抽取式 - 生成式混合框架来自动生成代码摘要，该框架结合了抽取式方法和生成式方法，能够提取关键的事实性细节，并生成简明、类似于人工撰写的自然语言摘要，实验证明 EACS 显著优于现有的技术，包括 BLEU，METEOR 和 ROUGH-L 等三个广泛使用的评估指标。

Jun, 2022

文本摘要技术取得了哪些成就？

通过使用多维度质量度量标准（MQM），我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源，发现在相似设置下，提取式汇总器总体上比其抽象式汇总器表现更好，尤其是在忠实度和事实一致性方面。同时，预训练技术，特别是序列到序列的预训练技术，对于提高文本汇总效果非常有效，其中 BART 效果最好。

Oct, 2020

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

OpinSummEval: 重新审视舆情摘要自动评估

观点总结与其他类型的总结任务有所不同，因为其独特关注于方面和情感。本文介绍了 OpinSummEval，它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明，基于神经网络的指标通常优于非神经网络的指标。然而，即使是构建在强大的模型基础之上，如 BART 和 GPT-3/3.5，也不能在所有维度上一致地与人工评分相关，凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。

Oct, 2023

CDEvalSumm：神经摘要系统跨数据集评估的实证研究

本文通过跨数据集设置，对 11 种代表性的文本摘要模型在不同领域的 5 个数据集上的性能进行了深入分析，揭示了模型的架构和生成方式（抽象和抽取），以及预训练的嵌入式知识对模型泛化能力的影响。

Oct, 2020