生成式人工智能的发展路径:方法与考虑
近年来,生成型人工智能的应用预计将在多个领域引起革命性的改变,领域范围涵盖科学、医学和教育等。这种巨大变革的潜力引发了有关潜在风险的激烈辩论,并引起了一些主导 AI 开发的科技巨头呼吁加强监管的声音。然而,这种监管可能会对开源的生成型 AI 领域产生不利影响。我们主张在即将到来以及中期的时段内进行负责任的开源生成型 AI 模型。为了设定背景,我们首先引入了一个 AI 开放性分类系统,并将其应用于 40 个当前的大型语言模型。然后我们总结了开放源代码和封闭源代码 AI 的不同益处和风险,并提出了从最佳实践到技术和科学贡献的潜在风险缓解措施。我们希望本报告能为当前关于近中期 AI 安全和其他社会影响的公共讨论添加一些急需的声音。
Apr, 2024
开源生成性人工智能(Gen AI)的应用在许多不同领域中具有革命性的潜力,可能引发对技术潜在风险的热烈讨论和对更严格监管的呼声。本研究使用三阶段框架对开源生成性人工智能模型的风险和机遇进行分析,并认为开源 Gen AI 的好处超过了风险,因此鼓励开源模型、训练和评估数据,并提供一系列管理与开源生成性人工智能相关风险的建议和最佳实践。
May, 2024
生成人工智能(GAI)提供了前所未有的可能性,但其商业化引发了关于透明性、可重复性、偏见和安全性的担忧。我们提出了模型开放性框架(MOF),它是一个按照开放科学、开放源代码、开放数据和开放获取原则对机器学习模型进行评级分类的系统。MOF 要求模型开发生命周期的特定组成部分必须包括并以适当的开放许可发布。该框架旨在防止声称开放的模型的误导,指导研究人员和开发人员以自由许可发布所有模型组件,并帮助公司、学术界和爱好者识别可以安全无限制采用的模型。MOF 的广泛采用将促进更加开放的人工智能生态系统,加速研究、创新和采纳。
Mar, 2024
本文旨在探讨如何保护开源代码的知识产权,特别是与 AI 生成代码的关系,提出改变开源代码许可证,鼓励立法行动等措施来保障 AI 系统未来发展并促进创新。
Jun, 2023
我们介绍了一项旨在开发开源且用户友好的人工智能系统,以用于生物医学和医疗保健领域复杂数据的机器学习分析,其中遗传编程技术可以帮助实现,并且强调了以前项目中遗传编程已经自动进行了机器学习分析的具体示例。
May, 2017
开放数据和生成式人工智能的关系及其可能带来的创新潜力是尚未完全探索的领域,本文提出了一种新的开放数据第四波的情景框架,其中列举了开放数据与生成式人工智能可能相交的一些情景并探讨了实现这些情景所需的数据质量和出处方面的要求,同时指出为了充分利用生成式人工智能从开放数据中获得更多的见解,并改善开放数据获取与使用,数据持有者首先必须在五个关键领域取得进展:增加透明度与文档化、维护质量与完整性、促进互操作性和标准化、提高可访问性与易用性、解决伦理考虑。
May, 2024
鲁棒的访问可信信息是社会的一个重要需求,涉及知识生产、公共健康教育和促进民主社会中公民明智决策。生成型 AI 技术可能为访问信息和提高现有信息检索系统的效果提供新途径,但我们才刚开始理解和应对其长期社会影响的问题,本章概述了在信息访问背景下使用生成型 AI 的一些系统性后果和风险,并提供评估和缓解建议,讨论了未来研究的挑战。
May, 2024
本文提出了评估生成 AI 系统社会影响的标准方法与分类,并基于技术系统和社会分别探讨了七种与五个大类共计 21 个社会影响类别,并提出了对现有评估的限制进行分析的建议,并为 AI 研究社区建立了一个评估存储库来贡献现有的评估。
Jun, 2023
生成式人工智能技术(GenAI)可能被用于积极和消极目的,这篇论文讨论了 GenAI 所带来的双重用途困境,并提出了针对此问题的短期和长期目标,旨在引发学术界对此重要主题的深入讨论。
Aug, 2023
本文简要回顾了 OpenAI 的 ChatGPT 及其开源类似项目,并评估它们在代码可访问性、数据、许可证、训练以及 fine-tuning 等方面的开放程度。我们发现,尽管有许多声称为 “开源” 的项目,但是其中大部分存在不确定的数据来源以及缺乏充分的文档说明,缺少重要的注释调整,有意识的科学文档非常罕见,而这些因素在公平性和责任性方面都显得非常重要。
Jul, 2023