本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中(停车位检测,车道检测和单 ocular 深度估计),实证研究一致表明,将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。
Apr, 2020
本文提出了一个方法,即基于样本难度感知熵正则化,利用经过大规模训练的预先训练模型指导下游模型训练,并同时提高了准确性和不确定性校准的可靠预测,克服了现代神经网络的困难,这是一个未被充分探索的领域。
Apr, 2023
通过 “模拟到真实” 的技术,本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型,再利用学习到的句子嵌入来定义距离度量,从而实现将自然语言映射到合成数据集的支撑上,训练出只使用合成训练数据的自然语言处理模型,其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。
通过训练分类器识别 PLMs 生成的数据,我们提出了一种新的方法来训练可靠的句子嵌入模型,从而得出更良好的效果。
Aug, 2022
合成数据被提出作为解决大型语言模型(LLMs)训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能,但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对(Q-A pairs)合成数据中的这些缺陷,提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题,且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解,旨在促进更健壮和高效的 LLM 训练。
Jun, 2024
本研究探讨了预训练模型在代码处理中的广泛应用及其对识别语法结构、正确性、标识符、数据流和命名空间等方面的影响,并测试了使用给定目标进行预训练、模型大小变化以及微调的影响。
Feb, 2022
DeepDebug 是数据驱动的程序修复方法,其可以从 GitHub 代码库中挖掘的实际 Java 方法中学习检测和修复错误的方法。通过将错误修补构建为序列到序列的学习任务,它实现了两个步骤,即去噪预训练和有监督的微调。本方法显示出比以前的工作更好的异常检测能力,并且可以使用通用解析器进行语言无关的方法。
Apr, 2021
本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集,并计划研究数据修剪和数据创建范式以生成高质量数据。
Mar, 2022
本研究探索预训练模型在软件工程任务中的应用,通过四项探测任务评估模型对代码特征信息的理解程度,发现不同预训练模型表现有差异,其中 BERT 表现出乎意料的优异,但还需要深入研究。
Aug, 2021
本文研究了基于对比学习的深度学习模型的嵌入向量的不确定性评估问题,并提出了一种方法,直接在嵌入空间中估计数据分布并考虑其局部一致性,结果表明该方法可以有效预测嵌入向量的下游性能。
Jul, 2022