一种用于改进代码注释分类的 ML-LLM 配对
在软件工程中的信息检索(IRSE)领域,通过基于人类和大型语言模型生成的标签的机器学习框架,开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务,将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果,并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差,但能得到更少过拟合的结果。
Oct, 2023
该研究论文提出了一种系统,用于自动预测代码 - 注释对的有用性,并研究了大型语言模型生成的数据对原始基础数据以及相应源代码的影响。通过使用评论和相应代码的神经上下文表示来训练基于机器学习的模型,我们开发了一个框架来预测代码 - 注释对的有用性,并分析了与基础数据使用 LLM 生成数据的性能。在官方评估中,我们的系统相对于基准线提高了 4% 的 F1 得分,并提高了生成数据的质量。
Oct, 2023
我们研究了大型语言模型的编程技能对其性能的影响,并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明,使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据进行训练的模型。
Feb, 2024
通过使用上下文化嵌入(尤其是 BERT)自动化对代码评论进行分类的方法,以及应用不同的机器学习算法来区分有用和无用的代码评论,本研究展示了生成型人工智能在提高二元代码评论质量分类模型方面的潜力,并为软件开发人员和自然语言处理及软件工程研究人员提供了有价值的见解。
Oct, 2023
我们提出了一种神经符号(NeSy)工作流,将基于符号的学习技术与大型语言模型(LLM)代理相结合,以生成 C 编程语言中用于代码注释分类的合成数据。我们还展示了如何使用此工作流生成可控的合成数据来修复基于 LLM 的生成的一些明显弱点,并提高经典机器学习模型在代码注释分类任务上的性能。我们的最佳模型,即神经网络,在数据增强后实现了 91.412% 的宏 F1 分数,提高了 1.033%。
Feb, 2024
通过在细调阶段共同训练信息检索系统和大规模语言模型,引入了一种创新方法 —— 共同医学 LLM 和检索训练(JMLR),以克服传统模型在处理医学问答任务方面面临的挑战,通过采用同步训练机制,JMLR 降低了对计算资源的需求,增强了模型利用医学知识进行推理和回答问题的能力。我们的实验结果表明,JMLR-13B 在 Amboos 上的正确率为 81.2%,在 MedQA 上的正确率为 61.3%,优于使用传统预训练和精调 Meditron-70B 模型(在 AMBOSS 上为 76.4%,在 MedQA 上为 60.3%)。在规模相同的 7B 模型中,JMLR-7B 的正确率(在 Amboos 上为 68.7%,在 MedQA 上为 51.7%)明显优于其他公开模型(Meditron-7B:50.1%,47.9%),证明了它在成本(我们的训练时间:37 小时,传统方法:144 小时)、效率和医学问题回答任务的有效性方面的优越性。通过此工作,我们为医疗保健提供了一种新的高效知识增强工具,展示了将信息检索和大规模语言模型训练集成到精确医学信息检索和问答系统中的巨大潜力。
Feb, 2024
使用学习排序技术结合不同的信息检索系统,解决大型语言模型中幻觉和过时信息的问题,提高检索问题回答任务的性能,并在 SQuAD 数据集上取得了最先进的结果。
Jun, 2024
信息检索领域,自传统搜索开始已经发展得非常成熟,并且扩展到满足用户不同的信息需求。最近,大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力,为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索,还为用户理解、模型评估和用户系统交互提供了改进的解决方案。最重要的是,信息检索模型、大型语言模型和人类之间的相互作用形成了一个更强大的信息搜索技术范式。信息检索模型提供实时和相关的信息,大型语言模型提供内部知识,而人类在信息服务的可靠性方面起到了需求者和评估者的核心角色。然而,仍然存在一些重大挑战,包括计算成本、可信度问题、特定领域限制和伦理考虑。为了深入讨论大型语言模型对信息检索研究的变革性影响,中国信息检索界于 2023 年 4 月举办了一次战略研讨会,得出了有价值的见解。本文总结了研讨会的成果,包括对信息检索核心价值的重新思考、大型语言模型和信息检索的相互增强、一个新的信息检索技术范式的提出以及面临的挑战。
Jul, 2023
该论文介绍了针对不同代码段的评论进行分类的任务,使用了不同的特征工程方案和文本分类技术,探索了经典的词袋模型和基于变形金刚的模型的性能,并提到了模型的局限性和改进空间。
Aug, 2023