一种用于改进代码注释分类的 ML-LLM 配对

Oct, 2023

一种用于改进代码注释分类的 ML-LLM 配对

A ML-LLM pairing for better code comment classification

Hanna Abi Akl

TL;DR信息检索在软件工程（IRSE）中的研究旨在进行代码注释分类，通过比较经典机器学习系统的性能和使用大型语言模型生成的额外数据来评估性能增加，最佳模型在提供的种子数据上获得了 88.401% 的宏 F1 分数，并在 LLM 生成的数据上总体性能增加了 1.5%。

Abstract

The "information retrieval in software engineering (IRSE)" at FIRE 2023 shared task introduces code comment classification, a challenging task that pairs a code snippet with a comment that should be evaluated as

information retrieval in software engineering code comment classification machine learning systems large language model performance

发现论文，激发创造

软件元数据的生成型人工智能：FIRE 2023 软件工程信息检索赛道综述

在软件工程中的信息检索（IRSE）领域，通过基于人类和大型语言模型生成的标签的机器学习框架，开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务，将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果，并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差，但能得到更少过拟合的结果。

Oct, 2023

基于生成型人工智能数据增强的软件元数据分类的影响研究

该研究论文提出了一种系统，用于自动预测代码 - 注释对的有用性，并研究了大型语言模型生成的数据对原始基础数据以及相应源代码的影响。通过使用评论和相应代码的神经上下文表示来训练基于机器学习的模型，我们开发了一个框架来预测代码 - 注释对的有用性，并分析了与基础数据使用 LLM 生成数据的性能。在官方评估中，我们的系统相对于基准线提高了 4% 的 F1 得分，并提高了生成数据的质量。

Oct, 2023

代码需要注释：用注释增强代码 LLMs

我们研究了大型语言模型的编程技能对其性能的影响，并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明，使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据进行训练的模型。

Feb, 2024

利用生成式人工智能：通过生成的代码 - 注释对提高软件元数据分类能力

通过使用上下文化嵌入（尤其是 BERT）自动化对代码评论进行分类的方法，以及应用不同的机器学习算法来区分有用和无用的代码评论，本研究展示了生成型人工智能在提高二元代码评论质量分类模型方面的潜力，并为软件开发人员和自然语言处理及软件工程研究人员提供了有价值的见解。

Oct, 2023

NeSy 活力四射：一种以 LLM 为驱动的符号化方法，用于更好的代码注释数据生成和分类

我们提出了一种神经符号（NeSy）工作流，将基于符号的学习技术与大型语言模型（LLM）代理相结合，以生成 C 编程语言中用于代码注释分类的合成数据。我们还展示了如何使用此工作流生成可控的合成数据来修复基于 LLM 的生成的一些明显弱点，并提高经典机器学习模型在代码注释分类任务上的性能。我们的最佳模型，即神经网络，在数据增强后实现了 91.412% 的宏 F1 分数，提高了 1.033%。

Feb, 2024

JMLR: 提升推理能力和专业问答能力的联合医疗语言模型和检索训练

通过在细调阶段共同训练信息检索系统和大规模语言模型，引入了一种创新方法 —— 共同医学 LLM 和检索训练（JMLR），以克服传统模型在处理医学问答任务方面面临的挑战，通过采用同步训练机制，JMLR 降低了对计算资源的需求，增强了模型利用医学知识进行推理和回答问题的能力。我们的实验结果表明，JMLR-13B 在 Amboos 上的正确率为 81.2％，在 MedQA 上的正确率为 61.3％，优于使用传统预训练和精调 Meditron-70B 模型（在 AMBOSS 上为 76.4％，在 MedQA 上为 60.3％）。在规模相同的 7B 模型中，JMLR-7B 的正确率（在 Amboos 上为 68.7％，在 MedQA 上为 51.7％）明显优于其他公开模型（Meditron-7B：50.1％，47.9％），证明了它在成本（我们的训练时间：37 小时，传统方法：144 小时）、效率和医学问题回答任务的有效性方面的优越性。通过此工作，我们为医疗保健提供了一种新的高效知识增强工具，展示了将信息检索和大规模语言模型训练集成到精确医学信息检索和问答系统中的巨大潜力。

Feb, 2024

MrRank：通过多结果排名模型提升问答检索系统

使用学习排序技术结合不同的信息检索系统，解决大型语言模型中幻觉和过时信息的问题，提高检索问题回答任务的性能，并在 SQuAD 数据集上取得了最先进的结果。

Jun, 2024

信息检索与大型语言模型结合：中国信息检索社区的战略报告

信息检索领域，自传统搜索开始已经发展得非常成熟，并且扩展到满足用户不同的信息需求。最近，大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力，为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索，还为用户理解、模型评估和用户系统交互提供了改进的解决方案。最重要的是，信息检索模型、大型语言模型和人类之间的相互作用形成了一个更强大的信息搜索技术范式。信息检索模型提供实时和相关的信息，大型语言模型提供内部知识，而人类在信息服务的可靠性方面起到了需求者和评估者的核心角色。然而，仍然存在一些重大挑战，包括计算成本、可信度问题、特定领域限制和伦理考虑。为了深入讨论大型语言模型对信息检索研究的变革性影响，中国信息检索界于 2023 年 4 月举办了一次战略研讨会，得出了有价值的见解。本文总结了研讨会的成果，包括对信息检索核心价值的重新思考、大型语言模型和信息检索的相互增强、一个新的信息检索技术范式的提出以及面临的挑战。

Jul, 2023

利用词袋和基于 Transformer 的模型识别代码中的评论相关性

该论文介绍了针对不同代码段的评论进行分类的任务，使用了不同的特征工程方案和文本分类技术，探索了经典的词袋模型和基于变形金刚的模型的性能，并提到了模型的局限性和改进空间。

Aug, 2023

大型语言模型在信息检索中的应用：综述

信息检索系统和大型语言模型的融合，包括关键方面，如查询重写、检索、重新排序和阅读器，在这一快速发展的研究领域中提供全面的概述和深入的见解。

Aug, 2023