- UniGen:使用大型语言模型进行文本数据集生成的统一框架
UniGen 是一个综合的 LLM 框架,利用创新机制解决现有生成框架中的泛化、可控性、多样性和准确性等挑战,通过引入属性导向的生成模块和检查功能,以及基于代码的数学评估和检索增强生成技术,产生多样、准确和高度可控的数据,并支持用户指定的约 - ChatGPT 作为研究科学家:探测 GPT 作为研究图书馆员、研究伦理学家、数据生成器和数据预测者的能力
ChatGPT 是一位不完美但在快速改进的图书管理员和已经是一位不错的研究伦理师,能够在已知特性的简单领域生成数据,但在预测未知经验数据的新模式方面表现较差,对未来实验的帮助有限。
- 预测扩散模型综合多模态电子健康记录
通过引入基于扩散的 EHR 数据生成模型 EHRPD 来解决电子健康记录数据生成中存在的局限性,并从真实性、隐私性和实用性的角度对其进行实验验证。
- FuseGen: 基于数据生成的零样本学习的 PLM 融合
基于数据生成的零样本学习通过由预训练语言模型生成的合成数据集对小任务特定模型进行训练,虽然有效果,但往往受到合成数据集质量低的限制。本文提出了 FuseGen,一种基于数据生成的零样本学习框架,通过利用多个预训练语言模型和训练过的小任务特定 - RoboPoint:机器人的空间可行性预测的视觉语言模型
我们介绍了一个自动的合成数据生成流水线,用于调整机器人领域和需求中的视觉语言模型,并通过该流水线训练了 RoboPoint,该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比,我们的方法无需真实世界数据收集或人类示范,使得它在适应 - 面向现实世界的超分辨率真实数据生成
本文介绍了一种新颖的逼真分离数据生成器(RealDGen),该生成器是为了解决现有图像超分辨率技术在复杂实际环境中泛化效果不佳的挑战所设计的。通过精心设计内容和降解提取策略,并将其整合到一种新颖的内容降解分离扩散模型中,从不成对的实际低分辨 - 外科手术器械六自由度姿态估计的真实数据生成
通过改进的仿真环境为外科机器人提供了大规模、多样化的 6D 姿态估计数据集,证明了所提系统在培训和评估外科机器人视觉算法方面的成功。
- 校对:轻点一下修复所有错误
该论文介绍了一种基于服务器端大型语言模型的 Gboard 新功能 Proofread,通过单击实现无缝的句子级和段落级纠错,从数据生成、指标设计到模型调优和部署,描述了完整的系统。
- Seal-Tools: 自助工具学习数据集用于代理调整和详细基准测试
本研究提出了一个新的工具学习数据集 Seal-Tools,它包含了自学习的类似 API 的工具。通过提供大量的工具和实例,Seal-Tools 不仅能实现数据的大规模生成,还能展示工具的实际应用。为了确保可靠性,我们提出了一种自学习方法来生 - 领域转移的合成数据生成用于提高单目深度估计
基于 3D 合成环境和 CycleGAN 域转换的数据生成方法与常见的 NYUDepth V2 数据集相比,通过使用不同的真实和模拟数据集训练基于 DenseDepth 结构的深度估计模型,我们评估了模型在新采集的图像和 Husky 机器人 - 面向源基数据生成的高效信息获取对话:以会议记录为案例
结合大型语言模型与人类专业知识,通过将角色扮演代理和用户的对话模拟为大型语言模型生成,然后由人类专家验证并补充归属数据,以更高效可靠地生成数据,并构建了集中在会议记录的首个信息检索对话数据集 MISeD,其中模型在测试集、手动 WOZ 测试 - 通过检索和转换现有数据集获取更好的合成数据
使用 DataTune 方法,通过数据集转换与细调语言模型,能够改进自动数据集生成,并在各种语言任务中取得了显著的改进。
- 高阶 Langevin 动力学的生成模型
提出了基于高阶 Langevin 动力学和评分匹配的快速高质量生成建模方法,通过同时建模位置、速度和加速度来改善数据生成的质量和速度,显著提高了 CIFAR-10 数据集上的 Frechet inception distance 和负对数似 - 通过缩放的正负样本对比学习提升组合图像检索
通过构建三元组并利用大型多模态语言模型,提出了解决复合图像检索问题的数据生成方法,并设计了用于优化表示空间的两阶段微调框架,实验结果显示方法在多个数据集上实现了最先进的结果,并在低资源场景下的复合图像检索中表现出色。
- 从数据洪流到数据筛选:高效文本人物搜索的过滤 - 增加权重逻辑
通过引入过滤算法和加权低秩适应策略(WoRA learning strategy)来识别构建数据集中的关键数据子集并进行轻量级微调,我们在基于文本的人员搜索任务中实现了高效的训练和检索性能。
- GeMQuAD:使用少量示例学习从大型语言模型中生成多语言问答数据集
通过使用 In-Context Learning (ICL) 与 GeMQuAD 半监督学习方法,本研究旨在利用 Large Language Models (LLMs) 生成的数据优化模型表现,特别适用于低资源多语言环境下的提取性问答任务 - 一个改进的表格数据生成器与 VAE-GMM 集成
提出了一种基于变分自编码器的模型,该模型以贝叶斯高斯混合模型为基础,在处理表格数据时能够更准确地表示潜在数据分布,同时具有更灵活的特性和更好的性能。
- 深度图像合成与图像伪造
图像伪造是一个多年来一直被研究的课题,深度学习的突破对图像伪造检测产生了重大影响,我们使用先进的图像合成深度学习模型自动化数据生成,生成接近真实操作的拼接图像,通过对生成的数据集进行测试,我们证明其对现有数据集的预测性能较低,即我们生成了更 - GOLD: 通过基于超出分布引导的语言数据生成进行的泛化知识蒸馏
基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD,一种任务无关的数据生成和知识蒸馏框架,通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实 - 关于合成数据的等效性、可替代性和灵活性
通过实证研究,我们调查了合成数据在实际场景中的有效性,发现合成数据不仅提高了模型性能,而且在不损失性能的情况下能够替代真实数据,展示出在现实问题中采集真实数据的效率问题上合成数据的潜力,并证明了相对灵活的数据生成器对于提升模型适应性,缩小领