- AI 的合理人标准
人工智能治理和人工智能对齐研究的一个挑战是以一种对社会有用和建设性的方式规范其行为,而合理人标准提供了对我们在模型中开发、测试和强调的行为类型的有用指导,并且解释了合理性在关键领域的定义和用法,以及合理行为的社会理解为 AI 研究人员提供了 - 解释性人工智能(XAI)中的虚假安全感
通过分析有关 AI 规定和政策的立法进展,本研究讨论了可解释性人工智能(XAI)的技术现状及其对 AI 治理的潜在威胁,指出需要明确、合理的立法和政策以解决 AI 解释能力的问题。
- AI 治理与问责:对 Anthropic 的 Claude 的分析
研究了 AI 治理的重要性以及 Anthropic 的 Claude 模型的潜在威胁和缓解策略,并强调透明度、严格的基准测试和全面的数据处理过程在确保 AI 系统负责任发展和部署方面的重要性。同时讨论了 AI 治理的社会影响和 AI 问责所 - 安全可靠的 LLM 检测器:实施、应用和局限性
为了应对大规模语言模型的各种风险以及提供有效的人工智能治理,我们致力于创建和应用一套迅速、可靠的检测器模型,旨在识别各种有害输出,并探讨了其发展中的挑战和未来工作。
- 解决 AIGC 版权困境的 Copyleft:假设分析、公众认知和影响
探讨利用 copyleft 解决 AIGC 版权困境的可行性的研究。
- 评估先进人工智能带来的社会规模风险的国际联盟
建议建立国际负责风险评估的 AI 联盟,以监管和规范快速发展的高级人工智能系统,缓解社会规模的风险,并推动负责任的扩展政策和协调的评估风险反应。
- 欧洲的人工智能:关于认知、态度和信任的研究
研究了欧洲八个国家的 4,006 名公民对人工智能的观点,发现虽然个人意识水平普遍较低,但超过一半的人对人工智能抱有积极态度。研究结果指出存在着内在的矛盾以及可能干扰信任生态系统和制定政策的趋势。提出了确保法律和道德标准、高水平教育机构的作 - 生成式 AI 和大型语言模型的双重使用问题
建议将针对生命科学领域的 DURC 框架应用于生成式人工智能,特别是大型语言模型,并提供了一些有关在 LLM 研究中应用 DURC 方法的具体建议,以增强社会对于生成式人工智能影响的认识。
- AI 民主化:多重含义、目标与方法
本文研究了 AI 民主化的四种形式:AI 使用的民主化、AI 开发的民主化、AI 利润的民主化和 AI 治理的民主化,强调了 AI 民主化是一个多方面的、有时冲突的概念,应该将其与提高 AI 可访问性区分开来,并认识到 AI 治理的民主化在 - 探索数据隐私增强技术对 AI 治理的相关性
本文提出隐私增强技术在数据交换和分析中减小了隐私与性能之间的权衡,同样的工具可以为 AI 治理提供外部审查、审计和源代码验证的能力,并以信息流的方式查看这些不同的 AI 治理目标,强调了这些解决方案之间的互操作性和重要性。
- 负责任机器学习系统的 AI 治理简介
本文探讨了人工智能技术的风险,并介绍了一种名为 AI 治理的框架,以确保人工智能的负责任使用,从而避免和减轻包括监管、合规性、声誉、用户信任、财务和社会风险在内的风险。
- ICML主动公平性审计
研究 ML 模型的审计算法,通过提出确定性算法和实用的随机化算法来评估 ML 模型的人口统计平等,以帮助监管机构应对机器学习的监管挑战,并为 AI 治理奠定更坚实的理论基础。
- 算法印记
本研究提出算法印记的概念以及应对措施,通过对 2020 年英国高级教育普及证书学位高考的算法分级事件的分析来探讨算法对学生、教师和家长的影响和不公平性问题,并强调算法印记可以在基础架构、社会和个人层面得出,为设计更公平的算法和指导 AI 治 - AI 伦理落地实践:组织 AI 治理的沙漏模型
本文介绍了一个人工智能(AI)治理框架,名为沙漏模型,该框架的目的是帮助发展和使用 AI 系统的机构将伦理原则转化为实践,与即将出台的欧洲 AI 法相一致。该框架包括环境、组织和 AI 系统层面上的治理要求,并通过连接不同 AI 治理层之间 - 人工智能伦理建设
本文分析了人工智能治理的技术解决方案,提出了一个分类目录,分为四个领域:探索伦理困境、个体伦理决策框架、集体伦理决策框架和人工智能交互中的伦理问题,并讨论了面向成功将伦理人工智能系统整合到人类社会的未来研究方向。