这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性,而由于数据稀缺、隐私问题和高成本,获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现,通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述,并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性,并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。
Apr, 2024
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
我们旨在识别现代生成 AI 范例中尚未解决的主要挑战,以进一步增强其能力、多样性和可靠性,并为研究人员提供有价值的见解,以探索更有成效的研究方向,从而促进更强大和可访问的生成 AI 解决方案的发展。
Feb, 2024
通过生成 AI,我们评估了不同领域测试数据生成任务的三种水平上大型语言模型(LLMs)的能力,结果表明 LLMs 可以成功地在各种领域和三个集成性水平上生成逼真的测试数据生成器。
Jan, 2024
生成式人工智能技术(GenAI)可能被用于积极和消极目的,这篇论文讨论了 GenAI 所带来的双重用途困境,并提出了针对此问题的短期和长期目标,旨在引发学术界对此重要主题的深入讨论。
Aug, 2023
本文探讨生成模型产生的合成数据可能成为机器学习领域的主导力量,可以创造更公平的数据、进行数据增强和模拟,尤其是在 ChatGPT 生成的文本方面。然而,在使用合成数据时,社区需要克服许多基本的挑战,其中最重要的是量化我们能够信任的查找或预测的程度。
Apr, 2023
这篇论文讨论了生成型人工智能(GenAI)和大型语言模型(LLMs)的潜在滥用风险和社会影响,并提出了应对挑战和准备的思考。
我们生活在生成式人工智能(GenAI)的时代。Deepfakes 和大型语言模型(LLMs)是 GenAI 的两个例子。然而,由于生成性质,它们的道德使用成为一个重要关注点。此篇文章试图探究它们之间的相互关系。
人工智能与生成式人工智能的应用领域,特别是语言生成与伦理考虑的最新研究成果与未来发展轨迹的综合分析。
May, 2024