EKILA:用于生成艺术的合成媒体溯源和归因
通过分布式注册表 DECORAIT,内容创作者可以选择加入或退出 AI 训练,同时获得他们贡献的奖励;使用 AI 模型在公共资源来源上进行大量数据采集来合成图片,对于希望公开分享作品而不愿意训练的模型和内容创作者来说,数据治理成为一个挑战;通过分布式账本技术和视觉指纹技术组合,使用 C2PA 标准建立安全开放的注册表,追踪 GenAI 训练数据的来源,以确定训练的同意和回报为贡献数据的创作者提供奖励。
Sep, 2023
我们提出了一个框架,通过依靠现代生成型人工智能模型的概率性质和经济学中的合作博弈理论技术,按比例向版权所有者补偿其对人工智能生成内容的贡献,实现对生成型人工智能版权的解决。实验证明,我们的框架成功地识别了艺术品生成中使用的最相关的数据源,确保在版权所有者之间公平而可解释的收益分配。
Apr, 2024
通过从数据管理的角度分析多模态数据湖中的底层数据,包括文本文件、表格和知识图谱,并评估其质量和一致性,我们可以确保生成型人工智能的正确性,提升透明度,并更加自信地进行决策。我们的愿景是促进可验证的生成型人工智能的发展,为人工智能的可信和负责任使用做出贡献。
Jul, 2023
通过区块链技术构建的基于数据集、许可证和模型的注册库的人工智能模型训练框架 (IBis),解决了数据和模型来源、版权合规等问题,实现了迭代模型训练和灵活的许可证检查和续约。
Apr, 2024
我们在语言模型的训练中发现了数据透明性和道德风险的问题,因此我们进行了一项多学科工作,对 1800 多个文本数据集进行了系统审计和追踪。我们发展了工具和标准,以跟踪这些数据集的来源、创作者、许可条件、属性和使用情况。我们的分析突出了商业开放数据集与封闭数据集在构成和重点方面的差异,封闭数据集垄断了重要的类别。此外,我们的研究还发现了广泛使用的数据集托管网站上许可证的错误和遗漏。为了促进数据集的透明性和负责任使用,我们发布了我们的审计结果,并提供了一个交互式界面,数据溯源浏览器,让从业者可以追踪和筛选最流行的开源调整数据集的数据溯源信息:www.dataprovenance.org。
Oct, 2023
生成式人工智能在模拟真实图像、文本和数据模式方面展示了令人瞩目的能力,然而,大规模数据集的使用引发了对数据隐私和版权侵权的担忧,传统方法只能提供问题的局部解决方案。我们的论文对数据生命周期内的隐私和版权保护面临的多层面挑战进行了深入研究,并主张综合技术创新与伦理思考来综合性地解决这些问题,以生命周期的视角开展调查和设计解决方案,旨在激发更广泛的讨论,并在生成式人工智能中积极推动数据隐私和版权完整性的共同努力。
Nov, 2023
基于强化学习方法和计算创造力的不同研究流派,本文提出了一个三重引导 - 响应 - 奖励工程框架,以提高生成人工智能(GenAI)的创造能力。该框架包括了引导模型、响应模型和奖励模型,通过开发创造性的引导、生成出令人惊喜和创新性的输出,并结合 AI、创作者 / 管理者和客户的反馈,逐步提高生成人工智能的创造力。
May, 2024
本文介绍了一种基于真实驾驶数据的生成模型 GINA-3D,其使用相机和 LiDAR 传感器捕获数据,通过学习三平面潜在结构的方法处理姿态与视差,从而创建具有多样性的车辆和行人 3D 模型,并在大规模的样本测试中表现出高质量和多样性。
Apr, 2023
通过重新生成的方法,我们提出一种可解释的数据所有权验证程序,能够识别潜在指纹,并通过迭代数据再生增强生成模型中的指纹。此方法不仅保护 API 的知识产权,还解决了信息传播和学术不端等重要问题,确保信息源的完整性和作者身份的真实性。
Feb, 2024