关键词data generation process
搜索结果 - 10
- LLM 见行:引导数据生成以实现非可微目标
使用合成数据生成的模型对其他大型语言模型产生的影响与其它模型通过提炼数据的方式发生关系,研究了合成数据整合的后果,进而详细研究了合成数据来源对模型内部偏见、校准以及生成的文本属性和偏好等方面的影响。研究发现,模型在某些属性上表现出惊人的敏感 - 潜在解释器:用多模态基础模型解释深度生成模型中的潜在表示
本文介绍了 LatentExplainer,这是一个自动化生成深度生成模型中潜变量语义有意义解释的框架,通过扰动潜变量和解释生成数据的变化,提供了一种系统的方法来理解和控制数据生成过程,增强了深度生成模型的透明度和可解释性。
- GenQA:从少数提示生成数百万个指令
研究如何从单个提示生成大型指导数据集,使用较少的人工监督,使 LLMs 能够撰写多样化的指令示例,从简单的完成任务到复杂的多轮对话,并在知识密集型任务和对话评估中超过了 WizardLM 和 Ultrachat,在扩展性和可伸缩性方面超过了 - ACLCodecLM: 用定制的合成数据对齐语言模型
通过使用编码 - 解码原理,我们引入了 CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤 - 用于因果决策的大型语言模型
通过对开源大语言模型进行微调,我们提出了 LLM4Causal,它能够识别因果任务、执行相应的函数并解释其数值结果,同时我们还提出了一种数据生成过程,用于更可控的 GPT 提示,并提供了两个指令微调数据集:因果检索基准和因果解释基准。通过三 - SegRefiner:离散扩散过程下的面向模型无关分割精化
提出了 SegRefiner 方法,通过将细分改进视为数据生成过程,通过一系列去噪扩散步骤实现。经过全面实验验证,SegRefiner 在各种细分任务中表现出优越性能,包括语义分割、实例分割和二分图像分割。
- 利用 YGAR 数据集的动作识别
我们提供了一个新的 3D 动作数据模拟引擎,并生成 3 组样本数据来展示其当前功能,通过这个新的数据生成过程,我们展示了它在图像分类、动作识别和探索更复杂动作识别任务的潜力,并训练和测试了一系列常用的图像识别模型来展示数据集和其生成过程的潜 - 逻辑回归估计的样本复杂度
透过研究样本复杂度,我们发现逻辑回归模型的参数估计受到维数和逆温度的影响,其样本复杂度曲线在逆温度上具有两个临界点,明确地分割低、中、高温度区间。
- 基于扩散的生成模型的更快非渐进收敛探索
该研究发展了一套用于理解离散时间下扩散模型数据生成过程的非渐进理论,对于一种常见的确定性采样方法,该理论建立了一个与步骤总数 $T$ 成反比例的收敛速率,对于另一种主流随机采样方法,该理论得出了一个与步骤总数 $T$ 的平方根成反比例的收敛 - EMNLP利用上下文作为正则化器的 ConRPG: 意译生成
本文提出了一种基于无监督范式的释义生成方法,思路基于生成相同含义的两个句子的概率应该相同,提出了一种由基于上下文语言模型生成释义候选项、使用评分函数进行候选项过滤、基于筛选的候选项进行释义模型训练的管道系统,并在不同任务和数据集上进行实验,