从非现实数据学习缺陷预测

Nov, 2023

Learning Defect Prediction from Unrealistic Data

Kamel Alrashedy, Vincent J. Hellendoorn, Alessandro Orso

TL;DR通过提取高维嵌入并评分人工样本相对于最接近的真实世界样本的距离，我们展示了在基于代码的两个流行预训练模型上训练仅包含表示最相似样本且舍弃与表示完全不相似样本的方法对两个代码理解任务取得了一致的改进。

Abstract

pretrained models of code, such as CodeBERT and CodeT5, have become popular choices for code understanding and generation tasks. Such models tend to be large and require commensurate volumes of training data, whi

pretrained models code understanding artificial bugs real-world programs neural model

发现论文，激发创造

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

基于预训练模型学习样本难度以实现可靠预测

本文提出了一个方法，即基于样本难度感知熵正则化，利用经过大规模训练的预先训练模型指导下游模型训练，并同时提高了准确性和不确定性校准的可靠预测，克服了现代神经网络的困难，这是一个未被充分探索的领域。

Apr, 2023

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

基于合成数据识别的句子相似性重新加权策略

通过训练分类器识别 PLMs 生成的数据，我们提出了一种新的方法来训练可靠的句子嵌入模型，从而得出更良好的效果。

Aug, 2022

揭示缺陷：探索合成数据的不完美和大型语言模型的缓解策略

合成数据被提出作为解决大型语言模型（LLMs）训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能，但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对（Q-A pairs）合成数据中的这些缺陷，提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题，且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解，旨在促进更健壮和高效的 LLM 训练。

Jun, 2024

探测源代码的预训练模型

本研究探讨了预训练模型在代码处理中的广泛应用及其对识别语法结构、正确性、标识符、数据流和命名空间等方面的影响，并测试了使用给定目标进行预训练、模型大小变化以及微调的影响。

Feb, 2022

使用预训练 Transformer 生成错误修复

DeepDebug 是数据驱动的程序修复方法，其可以从 GitHub 代码库中挖掘的实际 Java 方法中学习检测和修复错误的方法。通过将错误修补构建为序列到序列的学习任务，它实现了两个步骤，即去噪预训练和有监督的微调。本方法显示出比以前的工作更好的异常检测能力，并且可以使用通用解析器进行语言无关的方法。

Apr, 2021

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

预训练代码模型了解哪些代码知识？

本研究探索预训练模型在软件工程任务中的应用，通过四项探测任务评估模型对代码特征信息的理解程度，发现不同预训练模型表现有差异，其中 BERT 表现出乎意料的优异，但还需要深入研究。

Aug, 2021

对比学习中的不确定性：下游性能可预测性研究

本文研究了基于对比学习的深度学习模型的嵌入向量的不确定性评估问题，并提出了一种方法，直接在嵌入空间中估计数据分布并考虑其局部一致性，结果表明该方法可以有效预测嵌入向量的下游性能。

Jul, 2022